Grenzenlose Wissenschaft
Datenmanagement unterstützt Max-Planck-Institut für Chemie bei Forschungsprojekten
Forscher der Max-Planck-Gesellschaft (MPG) arbeiten an der Beantwortung zahlreicher grundlegender Fragen der Wissenschaft. Diese reichen von der Funktionsweise von Proteinen, über die Unterstützung des Gehirn beim Sprechen bis dazu, wie Ozon das Klima beeinflusst und ob die Erde der einzig bewohnte Planet im Universum ist. Die MPG konzentriert sich auf Fachgebiete, die innovative Folgeforschungen beflügeln können und entsprechend hohe Anforderungen stellen. Hohe Anforderungen muss auch die IT meistern, da die durchgeführten Forschungsprojekte hohe Datenmengen mit sich bringen. Deren Sicherung und Archivierung hat die Gesellschaft mit Expertenunterstützung in Angriff genommen.
„Wissenschaftliche Projekte produzieren enorme Datenmengen“, sagt Thomas Disper, Leiter für IT und IT-Sicherheit am Max-Planck-Institut für Chemie, MPIC. „Neben dem Sammeln von Rohdaten, werden Daten prozessiert und die Ergebnisse wiederum aufbewahrt. Letztlich ist es unser Ziel all diese Daten zugänglich zu machen und für unbestimmte Zeit aufzubewahren, ohne die Wissenschaft zu beeinträchtigen.“ Dabei muss das IT-Team, das für die Speicherung und Gewährleistung des Datenzugriffs verantwortlich ist, jede technische Herausforderungen meistern. Die IT soll die wissenschaftliche Forschung in keiner Weise einschränken. Das heißt, Wissenschaftler sollten ihre Projekte nicht ändern müssen, weil Ihnen die IT vermeidbare Grenzen setzt.
Steigende Kapazitäsanforderungen
Manche Forschungsprojekte können die kapazitären Grenzen einer Speicherumgebung schnell überschreiten. Ein Beispiel ist das Gemeinschaftsprojekt „ATTO“, Amazonian Tall Tower Observatory, das den Klimawandel im brasilianischen Regenwald untersucht. Mittels eines Messturms, 325 m hoch, der sich über den höchsten Baumwipfeln befindet, sammeln Wissenschaftler atmosphärische Daten. Durch Messungen zu Treibhausgasen, Aerosolpartikeln, Wolkeneigenschaften und vielen weiteren Parametern hoffen Forscher Klimamodelle zu verfeinern, Wettervorhersagen zu verbessern und wichtige Einblicke zu gewähren.
Das Projekt generiert riesige Datenmengen. „Manche der Messgeräte sammeln täglich bis zu 80 GB Daten“, sagt Disper. „Diese Daten werden dann in das Rechenzentrum nach Mainz transportiert und prozessiert. Von dort werden sie Wissenschaftlern rund um den Globus zur Verfügung gestellt.“
Simultaner Datenzugriff erforderlich
Für das brasilianische Regenwaldprojekt, aber auch für andere Projekte muss das Max-Planck-Institut für Chemie sicherstellen, dass zahlreiche Wissenschaftler zugleich auf die von ihnen benötigten Daten zugreifen können. „Zahlreiche Forschergruppen arbeiten hier häufig parallel“, erklärt Disper. „Wir müssen gleichzeitigen Datenzugriff gewähren, damit jeder Forscher kontinuierlich Fortschritte erzielen kann.“
Um eine Vielzahl von Forschungsgruppen zu unterstützen, muss das IT-Team die Speicherinfrastruktur für eine breite Palette von Betriebssystemen zur Verfügung stellen. Herausforderung: Es existiert eine sehr heterogene Landschaft mit Windows, Linux oder Macintosh. Das System soll die wissenschaftlichen Anforderungen unterstützen, ohne eine Änderung der Workflows bei den Forschern.
Datenströme ohne Flachschenhals
Das Team rund um IT-Leiter Thomas Disper musste zudem Wege für Backup und Archivierung finden, die einen dauerhaften, unterbrechungsfreien Datenzugriff heute und in Zukunft sichern. Der alte Fileserver war zu klein geworden und konnte die notwendige Leistung nicht mehr erbringen. Die Verarbeitung von parallelen Datenströmen war bspw. nicht möglich. So entstand ein Flaschenhals im nächtlichen Backup-Prozess. Erschwerend kam hinzu, dass die System-Umgebung nicht intuitiv genug war.
Die neue Umgebung heißt Stornext. Sie bietet die notwendige Leistung für mehrere parallele Datenströme. Forschungsprojekte sind damit weit entfernt von etwaigen Flaschenhälsen. Dank des parallelen Zugriffs und die regelbasierte Datenhaltung konnte auf ein zeitliches Backupfenster ganz verzichtet werden. Das Backup wurde über Nacht von einem kleinen Fileserver zu einem externen Dienstleister ‚umgezogen‘.
Skaliert und parallel
In Kombination mit Fujitsu-Primärspeichertechnologie ermöglicht die Stornext-Plattform dem IT-Team die schnelle Skalierung von Speicherkapazität, sobald Forscher neue, groß angelegte Forschungsprojekte initiieren. Benötigt wurde eine Plattform mit signifikantem Wachstumspotenzial – Datenvolumina können schnell ansteigen, wenn neue Projekte oder Kollaborationen mit anderen Forschungseinrichtungen unterstützen werden sollen. Mit Stornext kann die Kapazität schnell und einfach vervielfacht werden. Forschungsteams müssen keine Beschränkungen beachten im Hinblick auf Speicherkapazität. Speicherplatz für neue Projekte kann binnen eines Nachmittags zur Verfügung gestellt werden.
Die Stornext-Plattform bietet ein sogenanntes Shared Filesystem, über das Forscher gleichzeitig auf Daten zugreifen können. „Das ist kein reines Archiv“, erklärt Disper. „Mit der Plattform können wir die Daten für unsere Foschergruppen über ihren gesamten Lebenszyklus schnell abrufbar vorhalten.” Anwender müssen sich nicht umstellen und ein neues Filesystem erlernen. „Stornext ist transparent für seine Nutzer“, so Disper weiter . Das System bietet zudem flexible Unterstützung zahlreicher Betriebssysteme, darunter Linux, Unix, Windows und Mac OS. Im Ergebnis kann das MPIC Forschern rund um den Globus Datenzugriff gewähren, ohne dass diese ihre bestehende IT-Umgebung oder ihre Workflows anpassen müssen.
Storage Silos beseitigen und Datenmanagement vereinfachen
Die Stornext-Plattform bietet eine umfassende Leistung und Speicherkapazität, was die Forschungsgruppen von der Notwendigkeit befreit eigene Speicherlösungen anzuschaffen und ihre eigenen –umgebungen zu betreiben. Sie stellt den Wissenschaftlern nun die notwendige Performance und Speicherkapazität zur Verfügung, ohne ihnen das Management einer eigenen Speicherumgebung aufzubürden. „Wissenschaftler sollten sich nicht um IT sorgen müssen und so wertvolle Zeit verlieren. Nun erhalten sie die Ressourcen, die sie brauchen. Um das Management kümmern wir uns“, sagt Disper.
Für das zentrale IT-Team bedeutet die Lösung auch eine Optimierung der Administrationsaufgaben. Sie können die größere Umgebung einfacher verwalten und benötigen kein zusätzliches Personal. „Wir haben wenige Mitarbeiter, aber viel zu tun“, so Disper. „Die Stornext-Umgebung ist einfach zu verwalten und sehr wartungsfreundlich. Man muss nicht den ganzen Tag mit dieser Aufgabe verbringen.“
Forschungsdaten kurz- und langfristig sichern
Mit der Stornext-Plattform und der Archivierungslösung ‚ Scalar i6000 Tape Library‘ kann das IT-Team Forschungsdaten kontinuierlich im Hintergrund sichern. „Wir haben Regeln festgelegt, die die Daten nach einer bestimmten Zeit replizieren”, erklärt Disper. „Wir brauchen somit kein Backupfenster mehr.“
Das Institut nutzt die Active Vault-Funktion, um Bänder innerhalb der Bandbibliothek zu archivieren statt außerhalb in einem Schrank. Mit Active Vault können Unternehmen ihre Kosten und den Handlingaufwand minimieren und gleichzeitig die Sicherheit sowie den Zugriff auf die Inhalte verbessern. Das heißt: Wenn eine Festplatte voll ist, werden die Bänder in den sogenannten ‚Active Vault Bereich‘ innerhalb der Library migriert, also umgezogen. Dabei sind die Daten vor unberechtigtem Zugriff geschützt. Die Extended Data Life Management (EDLM) Funktion schützt vor Datenverlust auf Tapes. Anders als bei der Aufbewahrung im Schrank werden die Tapes regelbasiert nach einer gewissen Zeit gelesen, um zu prüfen, ob sie noch lesbar sind. Sollte diese Prüfung negativ ausfallen werden die Daten auf neue Tapes umkopiert. So ist gewährleistet, dass die Forscher auch in Jahren noch Zugriff auf die Daten haben.
Mit dem neuen Ansatz ist das IT-Team von Thomas Disper bestens für alle zukünftigen Projekte gewappnet. „Wir haben nun die Agilität, auf plötzlichen Veränderungen der Forschungsanforderungen schnell zu reagieren“, sagt Disper. Aber das Wichtigste: Potenzielle Hindernisse für die Wissenschaft konnten beseitigt werden.