Neuer Parallelrechner bei der GWDG: Nehalem-Cluster der Firma NEC

  1. Einleitung

Wegen des steigenden Bedarfs nach Rechenleistung für numerische Simulationen bei den Nutzern der GWDG und der Außerbetriebnahme von veralteten Parallelrechnern mit vergleichsweise geringer Leistung und hohem Stromverbrauch hatte die GWDG für 2009 die Erweiterung ihrer Parallelrechnerkapazität geplant.

Gleichzeitig hatten die Abteilung ,Sonne und Heliosphäre" des Max-Planck-Instituts für Sonnensystemforschung und das Institut für Geophysik der Universität Göttingen für 2009 eigene Beschaffungen von Parallelrechnerkapazität eingeplant.

GWDG, MPI und Geophysik haben ihre für 2009 zur Verfügung stehenden Mittel in eine gemeinsame Beschaffung eines Rechenclusters gebündelt, der bei der GWDG betrieben wird und von den Partnern anteilig entsprechend ihrer finanziellen Beteiligung genutzt werden kann. Der zentrale Betrieb anteilig finanzierter und genutzter IT-Ressourcen hat sich in der Vergangenheit bereits mehrfach wegen der dabei erreichbaren Synergieeffekte bei Beschaffung, Administration und Auslastung bewährt.

Die GWDG hat in Abstimmung mit den Partnern Anfang August 2009 im Rahmen einer beschränkten europaweiten Ausschreibung für ein Clustersystem mit Hochgeschwindigkeitskommunikationsnetz zwölf Unternehmen zur Abgabe eines Angebotes aufgefordert, von denen acht bis zum Stichtag am 10.09.2009 ein Angebot abgegeben haben. Nach der Bewertung der Angebote, bei der neben der durch Benchmarks ermittelten Rechenleistung auch der zu erwartende Stromverbrauch berücksichtigt wurde, lag die Firma NEC vorne - mit mehr als 5 % Abstand zum nächsten Angebot. Interessanterweise war das NEC-Angebot nicht das mit der höchsten Rechenleistung, sondern das unter Berücksichtigung des Energieverbrauchs wirtschaftlichste.

Die Lieferung des Systems erfolgte im Januar 2010, die Abnahme dann nach dem erfolgreichen Durchlaufen eines vierwöchigen Probebetriebs mit eingeschränktem Nutzungszugang Mitte März 2010. Seitdem läuft der neue NEC Nehalem-Cluster im Regelbetrieb. Nehalem ist der Name, der von Intel für seine neuen Quad-Core-Xeon-Prozessoren mit 64-bit-Unterstützung verwendet wird, die in den Rechenknoten des Clusters zum Einsatz kommen. Bereits in den wenigen Wochen seit Aufnahme des Regelbetriebs ist der neue Cluster voll ausgelastet, sodass für die dort gestarteten Jobs bereits Wartezeiten in Kauf genommen werden müssen.

  1. Beschreibung des NEC-Nehalem-Clusters

Aufbau

Abb. 1: Nehalem-Cluster

Der Nehalem-Cluster enthält insgesamt 188 Rechenknoten ( gwdn001,...gwdn188 ) mit je zwei Quad-Core-Prozessoren, 36 GByte Hauptspeicher und 1 TByte Plattenspeicher, von denen 900 GByte für lokalen /scratch -Bereich zur Verfügung stehen. Der Zugangsrechner, die gwdu103 , mit dem internen Namen gwdn203 , hat ebenfalls zwei Quad-Core-Prozessoren, aber 48 GByte Hauptspeicher und 1 TByte Plattenspeicher, von denen 900 GByte für einen /work -Bereich zur Verfügung stehen, der per NFS im gesamten Cluster gemountet ist.

Mit einer Gesamtleistung der insgesamt 1.504 Rechenkerne von 15,2 TFlop/s, einem verteilten Hauptspeicher von 6,7 TByte und einem verteilten lokalen Plattenspeicher von 188 TByte ist der Nehalem-Cluster das zur Zeit leistungsstärkste Rechnersystem bei der GWDG.

Abb. 2: Ethernet-Infiniband-NEC-Cluster

Die Kopplung der Rechenknoten erfolgt durch ein Infiniband-Kommunikationsnetz und ein Gigabit-Ethernet-Netz sowie ein Service-Fast-Ethernet-Netzwerk. Wie Abb. 2 zeigt, ist das Infiniband-Netz hierarchisch aufgebaut, wobei in der unteren Schicht elf sogenannte Edge-Switches, Voltaire 4036 QDR-Infiniband-Switches mit je 36 IB-Ports, die direkte Kopplung jedes einzelnen Knoten über einen ConnectX DDR HCA mit dem Infiniband-Netz gewährleisten. Darüber liegt eine Schicht von 6 baugleichen, aber wegen ihrer Funktion Spine-Switches genannte QDR-Infiniband-Switches. Diese sind mit jedem der elf Edge-Switches mit einem Trunk von drei Infiniband-Kabeln verbunden und schaffen so ein durchgängiges ,fully-non-blocking" QDR-Infiniband-Netzwerk.

Abb. 3: Cluster-Verkabelung: schwarz: Infiniband, grau: Gigabit-Ethernet, grün: Service-Netz

Energieverbrauch

In der Ausschreibung des Systems war eine Vollkostenrechnung über fünf Jahre Laufzeit gegenüber der Gesamt-Rechen- und -Kommunikationsleistung des Systems Grundlage für die Zuschlagserteilung. Ganz im Sinne von ,Green IT" spielten dabei die Energiekosten und damit der Energieverbrauch eine wesentliche Rolle für die Kaufentscheidung. Ein bauähnliches größeres System der Fa. NEC bei der Universität Stuttgart lag in der Green500-Liste ( http://www.green500.org/ ) zum Zeitpunkt des Zuschlags auf dem Platz 20 und war damit das energieeffizienteste System, das mit Commodity-Hardware ausgestattet war. Das einzelne Enclosure mit vier Bladeknoten hat unter Volllast eine Leistungsaufnahme unter 1.200 Watt. Damit hat das Gesamtsystem bei der GWDG eine maximale Leistungsaufnahme von 56,4 kW. Das System ist damit bei etwa doppelter Gesamtleistung auch etwa doppelt so energieeffizient wie das 2007 beschaffte Woodcrest-System.

Der Prozessor

Auf dem Prozessorchip des Intel(R) Xeon(R) E5540 aus der Prozessorserie mit Kurzbezeichnung Nehalem sind vier mit 2,53 GHz getaktete Prozessor-kerne untergebracht. Die Mikroarchitektur jedes Cores des Prozessors ist durch eine 14-stufige Befehlspipeline gekennzeichnet, die von Instruktionen und Daten aus dem Level-2-Cache versorgt wird. Sie kann, wie schon bei den Xeon-Prozessoren der jüngeren Vergangenheit, bis zu vier Instruktionen pro Takt starten und auf die zehn Verarbeitungseinheiten - drei für Integer-Operationen, drei für SSE-Operationen, zwei für Fließkommaoperationen und je eine für Lade- und Speicher-Operationen - verteilt werden.

Von besonderer Bedeutung für die Rechengeschwindigkeit bei wissenschaftlichen Anwendungen sind die SSE-Verarbeitungseinheiten, die mit ihrer Datenbreite von 128 bit gleichzeitig zwei Fließkomma-Operationen mit 64-bit-Operanden bearbeiten können und pro Takt zwei Ergebnisse liefern. Da von den vier gleichzeitig möglichen Befehlen zwei vom SSE-Typ sein können, liefert der Nehalem-Kern pro Takt maximal vier Resultate von Fließkomma-Operationen, was eine theoretische Spitzenleistung eines Kerns von 10,12 GigaFlop/s erlaubt. Tatsächlich wurden in unseren Benchmarks bei der realistischen Anwendung einer Matrix-Multiplikation 9,65 GigaFlop/s gemessen.

Der Nehalem-Prozessor besitzt eine dreistufige Cache-Hierarchie, deren erste beide Stufen, L1- und L2-Cache, im Wesentlichen gleich geblieben sind. Der L3-Cache ist mit 8 MByte ausgestattet, wird aber von allen Cores gemeinsam genutzt, sodass sich die Größe pro Core wiederum nicht ändert. Die Quad-Core-Variante des Nehalem hat 731 Millionen Transistoren in 45-nm-Technologie verbaut.

Der Rechenknoten

Abb. 4: Clusternode

Die NEC-Nehalem-Knoten mit den stromsparenden 1812Rb2-Miniblade-Systemen sind jeweils in Vierfach-Enclosures im Rack montiert. Die wesentliche Änderung im Motherboard-Design dieser Prozessorserie besteht im Ersatz des Frontside-Bus (FSB), welcher zuvor die Verbindung zwischen Prozessor und Chipsatz herstellte, durch den sogenannten QuickPath Interconnect, einer Punkt-zu-Punkt-Verbindung, die den Flaschenhals der Northbridge überwindet und technologisch dem Hypertransport von AMD nachempfunden wurde.

Abb. 5: QuickPath Interconnect

Das verwendete Board mit dem Intel-Tylersburg-Chipsatz (Intel 5550) unterstützt den mit 6,4 GHz getakteten QuickPath Interconnect für die Kommunikation zwischen den Prozessoren mit einer Datenrate von 51,2 GByte/s oder 6,4 Giga-Transaktionen pro Sekunde. Die Verbindung mit dem Speicher ist über drei 64 bit breite parallele Kanäle realisiert, die bei den verwendeten DDR3-Speichermodulen (1.066 MHz) eine Gesamtdatenrate von 25,6 GByte/s ermöglichen. Insgesamt ist somit pro Prozessor-Kern eine Speicherbandbreite von 6,4 GByte/s verfügbar.

Der Anschluss an das Infiniband-Netzwerk erfolgt über ein an PCI-Express (PCI-E x16 Gen2) angeschlossene HCA (Host Channel Adapter) mit einer theoretische Bandbreite von 20 Gbit/s, im Bechmark gemessen wurden 12,8 Gbit/s.

    Haan, Schwardmann