Sechs 7-nm-Xe-GPUs pro Aurora-Node

Intel hat seine 7-nm-Xe-Grafikmodule erläutert: Die heißen intern Ponte Vecchio, nutzen diverse Packaging-Techniken sowie Stapelspeicher und werden in multipler Form gekoppelt. Zusammen mit Sapphire-Rapids-CPUs bilden sie die Basis des Aurora-Exaflops-Supercomputers.

Ein paar Informationen vorneweg: Das was Intel als Xe alias Gen12 bezeichnet, ist die Architektur für die ersten eigenen modernen dedizierten Grafikchips seit dem i740 von 1998. Derzeit befinden mehrere Modelle in Entwicklung, wovon wenigsten vom DG1 (Discrete Graphics 1) alias Arctic Sound bereits lauffähiges Silizium existiert. Für Supercomputer entwickelt Intel einen 7-nm-Ableger, dieser trägt Ponte Vecchio als Codename und steckt im kommenden Aurora, dem ersten Exaflops-Supercomputer in den USA.

Auf der derzeit im US-amerikanischen Denver stattfindenden Supercomputing 2019 hat Intel ein paar Details zum Aurora und zum Ponte Vecchio genannt: Das System soll mehr als ein Exaflops erreichen und wird im Auftrag des US-Energieministeriums (Department of Energy, DoE) entwickelt, es soll 2021 im Argonne National Laboratory in Chicago in Betrieb genommen werden. Ein jeder Rechenknoten des Aurora besteht dabei aus sechs 7-nm-Xe-Beschleunigern und zwei Xeon-CPUs, hierfür nutzt Intel seine Sapphire Rapids mit 10++ nm Fertigung. Die Prozessoren binden DDR5-Arbeitsspeicher und nicht flüchtigen Optane Memory an.

Jeder Ponte Vecchio kann direkt mit jedem Ponte Vecchio kommunizieren, Intel verwendet dazu eine Version des Compute Express Link (CXL) und verknüpft so Cache-kohärent auch die beiden Sapphire Rapids mit den 7-nm-Xe-Beschleunigern. Die basierend auf einer Mischung aus 2.5D- und 3D-Packaging, genauer Intels eigenem EMIB (Embedded Multi Die Interconnect Bridge) und Foveros. Wie so etwas aussehen kann, zeigte Intel bereits im Juli 2019 anhand von Designs mit HBM2-Stapelspeicher und mehreren Logik-Dies auf einem Träger. Für Ponte Vecchio spricht der Hersteller generell von sehr viel und sehr schnellem On-Package-Cache, was auf HBM2E oder HBM3 hinweist.

Zu den weiteren Eigenschaften von Xe für Supercomputer hielt sich Intel zurück, allerdings werden die Chips die für das HPC-Segment unabdingbare Unterstützung von Berechnungen mit doppelter Präzision (Double Precision, FP64) bei hoher Geschwindigkeit aufweisen. Hinzu kommen flexible Matrix- und Vector-Engines, hier dürfte Intel also typische Algorithmen für maschinellen Lernen in Hardware beschleunigen. Auf dem Aurora läuft Intels OneAPI-Software-Stack, welcher von CPUs über FPGAs und GPUs allerhand Beschleuniger anspricht.