MIT-Professor erzielt mit dem bisher größten Cluster in einer öffentlichen Cloud neue Rekorde bei der Rechenleistung

Mit dem Einsatz der Google Compute Engine zur Verwaltung der L-Functions and Modular Forms Database (LMFDB) bricht der algorithmische Zahlentheoretiker und leitende Wissenschaftler am MIT, Andrew V. Sutherland, seinen eigenen Hochleistungs-Computing-Rekord: Er erreicht 580.000 Kerne.

In den meisten Vorlesungen zur Philosophie der Mathematik wird viel über "Objekte" gesprochen. Objekte sind quasi alles in der Mathematik, beispielsweise Zahlen und Funktionen oder die Ergebnisse mathematischer Berechnungen wie Kurven. Die L-Functions and Modular Forms Database (LMFDB) ist ein detaillierter Atlas von Objekten und ihren Verbindungen. Sie entstand aus der Zusammenarbeit von internationalen Wissenschaftlern und wird von einem Team geleitet, das sich an verschiedenen Universitäten in Europa und Nordamerika befindet, unter anderem am MIT.

Wenn man eine Frage stellt und schon nach wenigen Stunden eine Antwort erhält – anstatt erst Monate später –, ändert sich die gesamte Forschungsperspektive."

Andrew V. Sutherland, algorithmischer Zahlentheoretiker und leitender Wissenschaftler, MIT

Daten mit anderen Wissenschaftlern austauschen

Die LMFDB ermöglicht wissenschaftliche Fortschritte, denn die Datenbank erleichtert es Forschern, Daten über Objekte mit weltweiten Communities in den Bereichen Physik, Informatik und Mathematik auszutauschen. Einige der Berechnungen für die Erstellung von Objekten sind so komplex, dass nur einige wenige Menschen auf der Welt in der Lage sind, sie auszuführen. Andere Berechnungen sind so umfangreich, dass man sie am besten nur einmal ausführt – alles andere wäre zu zeitaufwändig und zu teuer.

Das Team der LMFDB brauchte einen Clouddienst, der den wachsenden Speicheranforderungen gewachsen war. Die Größe des Projekts ist immens: Es waren beinahe 1.000 Jahre Rechenzeit nötig, um die Objekte in der LMFDB zu erstellen. Neben den beträchtlichen Speicherplatzanforderungen war auch die Skalierbarkeit wichtig. Die Datenbank steht unter lmfdb.org öffentlich zur Verfügung. Das bedeutet, dass täglich unzählige Suchen durchführbar sein mussten. Und da die LMFDB ein kooperatives Projekt ist, brauchte das Team außerdem ein System, das sich problemlos in verschiedenen Ländern verwenden ließ.

Fokus auf Forschung statt auf Infrastruktur

Das LMFDB-Team hat sich mehrere Cloud Lösungen angesehen und sich aufgrund der hohen Leistung, der automatischen Skalierbarkeit, der Nutzerfreundlichkeit und der Verlässlichkeit für die Google Cloud Platform (GCP) entschieden.

Einer der führenden Wissenschaftler, die an der Entwicklung der LMFDB und dem Entscheidungsprozess beteiligt waren, war Andrew V. Sutherland, ein Mathematikprofessor, algorithmischer Zahlentheoretiker und leitender Wissenschaftler am MIT.

"Wir sind Mathematiker, die sich auf die Forschung konzentrieren möchten. Wir wollen uns nicht über Hardwareausfälle oder Skalierungsprobleme Gedanken machen", erklärt Sutherland.

Sutherland und der Rest des LMFDB-Teams entschieden sich für die Nutzung von Google Compute Engine (GCE) und Persistent Disk, um die Webserver zu hosten. In gespiegelten MongoDB-Datenbanken sollten ein halbes Terabyte an Onlinedaten gespeichert werden und drei Terabytes an Daten, auf die seltener zugegriffen werden muss. Dadurch ist es möglich, die LMFDB nach Bedarf zu skalieren und Berechnungsergebnisse sowie mathematische Objekte schnell bereitzustellen. Die LMFDB verwendet außerdem eine Reihe von GCP-Tools, mit denen die in verschiedenen Teilen der Welt arbeitenden Wissenschaftler die Datenbank einfacher gemeinsam verwalten können. Zu diesen Tools gehören unter anderem die Google Cloud Console, Stackdriver und Cloud Load Balancing.

Sutherland hatte eine besonders komplexe Tabellierung, die er in der LMFDB verarbeiten und speichern musste. Sie war so umfangreich, dass dafür mehr Rechenleistung nötig war, als bisher jemals in einer öffentlichen Cloud möglich gemacht wurde. Er entschied sich für die GCE und führte das Ganze auf 580.000 Kernen mit VMs auf Abruf aus – der größte Hochleistungs-Computercluster, der jemals in einer öffentlichen Cloud ausgeführt wurde.

Die Berechnung ergab 70.000 unterschiedliche Kurven, von denen jede einen eigenen LMFDB-Eintrag bekommen hat. Auch nur eine dieser Kurven zu erhalten, ist eine unglaublich komplexe Aufgabe, für die zahllose Rechenzyklen nötig sind. "Das ist so, als würde man in einem 15-dimensionalen Heuhaufen nach einer Nadel suchen", veranschaulicht Sutherland.

Bevor Sutherland die Berechnungen mithilfe der GCE durchführen konnte, musste er auf seinem eigenen 64-Core-Computer Aufträge ausführen. Und das dauerte einfach viel zu lange. Seine einzige Alternative bestand darin, Rechenzeit auf den Clustern des MIT für sich zu reservieren. Doch die war nur schwierig zu bekommen und er konnte dann nur bestimmte Softwarekonfigurationen verwenden. Mit der GCE nutzt er so viele Kerne, wie nötig, und installiert einfach das gewünschte Betriebssystem sowie Bibliotheken und Anwendungen. Zusätzlich kann er die Umgebung aktualisieren, wann immer er möchte.

Dank der Skalierbarkeit, die die GCP für die LMFDB mitbringt, können alle Beteiligten – angefangen bei den Studenten bis hin zu erfahrenen Wissenschaftlern – über eine Weboberfläche nach Inhalten suchen und in diesen navigieren. Sutherland unterrichtet beispielsweise einen Kurs zu elliptischen Kurven und die Studenten nutzen die LMFDB für ihre Hausarbeiten.

Bei umfangreichen Berechnungen Geld sparen

Viele Forschungs- und Bildungseinrichtungen haben mit einem begrenzten Budget zu kämpfen. Doch mit der GCP sind riesige Berechnungen zu erschwinglichen Preisen möglich. Mit den VMs auf Abruf der GCE, die Sutherland nutzt, können bei der Durchführung extrem komplexer Berechnungen die Kosten drastisch gesenkt werden. Diese Instanzen mit vollem Funktionsumfang kosten bis zu 80 % weniger als ihre herkömmlichen Äquivalente, weil sie von der GCE unterbrochen werden können. Die Unterbrechung hat keinen signifikanten Einfluss auf die Leistung – im Durchschnitt werden in jeder Berechnungsstunde nur 2–3 % der Instanzen unterbrochen. Ein Skript startet sie automatisch neu, bis der gesamte Auftrag erledigt ist. Dadurch geht wenig Zeit verloren. Durch diese kleinen Unterbrechungen können riesige Berechnungen zu niedrigen Kosten und praktisch ohne Verzögerung ausgeführt werden.

Wir erfassen die Mathematik des 21. Jahrhunderts

Andrew V. Sutherland, algorithmischer Zahlentheoretiker und leitender Wissenschaftler, MIT

Vielen Dank für Ihre Registrierung!

Erzählen Sie uns mehr über Ihre Interessen.