Supercomputing und E-Science

EDSM-2020.jpg

Moderne Wissenschaft bedeutet vor allem den Umgang mit großen Datenmengen, die entsprechende wissenschaftliche Dienste und Infrastrukturen benötigen. In Kooperation mit den wissenschaftlichen Arbeitsgruppen und Projekten wird am AIP das FAIR-Prinzip sichergestellt, nach dem Arbeitsprozesse für die Verarbeitung und Veröffentlichung von Datensammlungen mit modernen Standards für Metadaten arbeiten und die Daten auffindbar, zugänglich, interoperabel und wiederverwendbar sind. Die Grundlage bilden kollaborative Arbeitsumgebungen, einschließlich effizienter Computing- und Speicherkapazitäten.

Kollaborative Forschungsumgebungen (CRE), die auf der effizienten Verbindung von Supercomputing- und Storageeinrichtungen beruhen, werden bereitgestellt und weiterentwickelt. Ein weiterer Schwerpunkt der Forschungsabteilung ist die Veröffentlichung der Forschungsdaten unter Anwendung von Standards des Internationalen Virtuellen Observatoriums (IVOA). Die E-Science-Gruppe entwickelt Open-Source-Software für die wissenschaftliche Gemeinschaft, insbesondere für Datenpublikation. Die Basis der wissenschaftlichen Infrastruktur bilden Supercomputing- und Virtualisierungsumgebungen, im Verbund mit dem Management der wachsenden Storage-Kapazitäten.

Supercomputing, Storage und Virtualisierungsinfrastruktur

Das AIP hostet mehrere Rechenanlagen für Forschungszwecken und Datenanalyse. Es gibt zwei Compute-Cluster Leibniz und Newton mit etwa 3.000 Kernen, die sich in verschiedenen Gebäuden befinden - im Leibniz- bzw. Schwarzschild-Haus. Der schnelle Infiniband-Interconnect zwischen den Clustern wird für den Datentransfer genutzt, welche von mehreren parallelen Lustre-Dateisystemen bereitgestellt werden. Es werden ca. 4 PB Speicherkapazität für wissenschaftliche Daten aus Beobachtungen und Simulationen bereitgestellt. Etwa 0,5 PB auf jedem Cluster sind für den parallelen Zugriff von den Rechenknoten verfügbar. Für Entwicklungszwecke stehen auch einige GPU-Computing-Einrichtungen zur Verfügung. Die ausführliche Bedienungsanleitung zu Clustern finden Sie auf den internen Seiten des AIP.

Zusätzlich zu den Clustern hostet das E-Science-Team die Compute-Cloud-Infrastruktur (CCI) auf Basis der Open-Source-Virtualisierungslösung oVirt. Über 65 virtuelle Maschinen werden in oVirt mit unterschiedlichen Aufgaben und Profilen gehostet. Zu den Aufgaben gehören Datenanalyse- und Datenreduktionspipelines sowie Gitlab-, CI- und Mattermost-Dienste oder Webservices. Die Dienste und Pipelines laufen in separaten virtuellen Maschinen oder Docker-Containern. Die isolierten Umgebungen erhöhen die Sicherheit und Zuverlässigkeit der Umgebung. Das AIP-Backbone-Netzwerk ist mit 10-GB-Switches implementiert, es ermöglicht die grossen Datensammlungen den Compute-Clustern und den VMs zur Verfügung zu stellen.

Kollaborative Forschnugsumgebungen (CRE)

Internationale wissenschaftliche Kollaborationen, an denen AIP-Wissenschaftler beteiligt sind, werden von COLAB unterstützt, einer Webbasierten kollaborativen Platform für Data Science. COLAB dient als Schnittstelle zwischen verschiedenen Datenspeicher- und Rechenressourcen und bringt eine breite Palette an wissenschaftlichen Programmierß und Analyseumgebungen mit. COLAB verwendet eine Virtualisierungsschicht, die auf der oVirt Software basiert und eine effiziente Nutzung der Hardwareressourcen des Instituts ermöglicht. COLAB ist eine fortschritliche Implementierung des "Code to the Data"-Paradigmas. Die zusätzliche Bereitstellung von GitLab, CI und Matttermost bieten ein komplettes Softwarecode Ökosystem für die moderne Code-Entwicklung mit Versionskontrolle und Continous Integration für Tests.

Darüber hinaus entwickelte die E-Science Gruppe spezialisierte CRE's für die Kosmologie wie CLUES, MultiDark und HESTIA, MUSEWise für die MUSE-Kollaboration und GREGOR für Beobachter, die das Sonnenteleskop GREGOR nutzen. Diese Forschungsumgebungen bieten den Mitgliedern der Kollaboration Zugang zu den riesigen Datensammlungen, die noch nicht veröffentlicht sind und an den aktiv gearbeitet wird. Die Softwareumgebung ist auf die Bedürfnisse jeweiliger Kollaboration zugeschnitten.

Datenveröffentlichung und Virtuelles Observatorium (VO)

Der Daiquiri-Softwarestack wird für die Datenpubklikation und Datendienste verwendet. Mehrere Daten-Releases (DR) wurden unter Verwendung dieses Frameworks publiziert. Derzeit sind der finale Datenrelease RAVE DR6 des RAVE Surveys, der Datenrelease 3 des Fotographischen Plattenarchives APPLAUSE, der Gaia Early Data Release 3 des europäischen Gaia Satelliten (das AIP ist einer von 4 Partner-Datenzentren), die Resultate des MUSEWIDE Survey und viele kleinere Datensammlungen veröffentlicht. Der Zugriff auf die Daten kann entweder über ein webasiertes SQL-Abfrageformular oder über einen skriptgesteuerten Zugriff mithilfe des TAP Protokolls vom Virtuellen Observatorium (VO) erfolgen, wobei sowohl Astropy als auch TOPCAT unterstützt werden.

Alle veröffentlichten Dantesammlungen tragen umfangreiche, VO-konforme Metadaten und sind mit regristrierten DOI's (Digital Object Identifier) versehen, um ihre Auffindbarkeit und Zitierfähigkeit zu verbessern. Der VO-Standard für die Provenienz astronomischer Daten wurde unter wesentlicher Mitwirkung der E-Science Gruppe entwickelt und fertiggestellt, eine Referenzimplementierung wird auf der APPLAUSE-Seite bereitgestellt.

Neben der Kuratierung und Veröffentlichung von Daten bietet der Bereich E-Science den wissenschaftlichen Arbeitsgruppen Zusammenarbeit und Unterstützung beim Crossmatch von Katalogen und der Anwendung von Methoden des maschinellen Lernens.

Die veröffentlichten Forschungsdatensammlungen sind unter Forschungsdaten näher beschrieben.

Softwareentwicklung und Community-Arbeit

Der Daiquiri-Softwarestack wird von der E-Science-Sektion entwickelt und zur Veröffentlichung vieler Forschungsdatensammlungen verwendet. Die Software wird unter der Apache2 Open-Source-Lizenz auf Daiquiri (Github) veröffentlicht. Daiquiri stellt zahlreichen Projekten maßgeschneiderte Webservices zur Verfügung, von der Benutzerverwaltung für wissenschaftliche Kollaborationen, wie sie im 4MOST-Projekt verwendet werden (4MOST), über die Unterstützung der aktiven Kollaborationsphase bis hin zur Veröffentlichung von Daten-Releases wie APPLAUSE, RAVE, MUSEWide, Gaia@AIP . Das 4MOST Public Archive wird derzeit entwickelt.

Das Projekt RDMO (Research Data Management Organiser) hat große Unterstützung erfahren. Mittlerweile nutzen rund 35 Institutionen (Universitätsbibliotheken, Physikalisch-Technische Bundesanstalt, Helmholtz-Zentren, Leibniz-Institute) die von der Sektion E-Science in Zusammenarbeit mit KIT und FHP entwickelte Software als Bestandteil ihres Datenmanagements. Ursprünglich von AIP und FHP als Forschungsprojekt gestartet und von der DFG gefördert, ermöglichte der auf Open Source basierende Ansatz die Fortführung von RDMO über die DFG-Förderung hinaus. Die RDMO Arbeitsgemeinschaft vereint Mitwirkende, Nutzer und Teilnehmer aus ganz Deutschland, und das AIP ist ein unterzeichnendes Mitglied des Memorandum of Understanding. In Fortsetzung ist das AIP an einem BMBF-Projekt zur Datenkuratierung und Datenzertifizierung (DDP Bildung) beteiligt.

Das Betriebssystem Debian Astro Pure Blend hat im Juli 2019 sein zweites großes Release veröffentlicht. Das neue Release enthält mehr als 300 für die Astronomie geeignete Softwarepakete, darunter Astropy und dessen Ökosystem, sowie Pakete für maschinelles Lernen. Klassische Pakete wie das Bildverarbeitungswerkzeug IRAF oder die Software ESO-MIDAS sind ebenfalls verfügbar. Debian Astro Pure Blend wird hauptsächlich innerhalb des E-Science-Bereichs realisiert.

Das Pilotprojekt Virtual Reality wurde 2016 gestartet und beim IAU Symposium 334 im Juni 2017 erfolgreich eingesetzt. Ausgestattet mit Virtual-Reality-Brillen können die Teilnehmer durch ein Universum reisen, das von einer kosmologischen Computersimulation erzeugt wurde. Das Projekt erhielt für seine innovative Technologie einen Sonderpreis beim 18. Potsdam Congress Award im März 2019.

Letzte Aktualisierung: 21. Februar 2021