Aurora, la supercomputadora que tiene el tamaño de cuatro canchas de tenis y cuyo desarrollo es liderado por Intel

291

Como arquitecto jefe e investigador principal de la supercomputadora Aurora en Laboratorio Nacional Argonne de Illinois, Olivier Franza desempeña un papel fundamental en la creación de uno de los instrumentos científicos más ambiciosos, por no hablar del mayor cluster de GPU del mundo.

Aurora se encuentra como uno de los proyectos más esperados y visibles en los que Intel ha participado en los últimos tiempos, una apuesta audaz por toda la cartera de sistemas de Intel. Se espera que la máquina sea la primera supercomputadora con un rendimiento máximo que alcance los 2 exaflops, es decir, 2×1018, operaciones en coma flotante por segundo.

Eso pone un poco de presión sobre Franza, un veterano de Intel que se unió al proyecto Aurora como arquitecto de hardware del sistema en 2016. Supervisó el pivot a una máquina basada en GPU y se convirtió en arquitecto jefe en 2021.

«El arquitecto jefe es responsable de definir la arquitectura global del sistema de la supercomputadora de acuerdo con los requisitos de alto nivel del cliente», explica Franza. «Los hay fundamentales, como las métricas generales de rendimiento y la envolvente energética, pero también características inherentes como RAS (fiabilidad, disponibilidad, capacidad de servicio por sus siglas en inglés) que son esenciales para construir un sistema escalable».

Publicidad

Sus responsabilidades también abarcan los detalles de la topología del sistema, desde un nodo a un bastidor, pasando por el sistema completo, incluyendo su estructura de red y sus componentes de almacenamiento.

Un giro en la hoja de ruta abre la oportunidad de dar forma a futuros productos
Cuando comenzó la planificación inicial de Aurora, un sistema patrocinado por el Departamento de Energía de EE. UU., el diseño consistía en una colección de tecnologías Intel. Sin embargo, los cambios en la hoja de ruta de productos de Intel, especialmente el final de las familias de productos Xeon Phi y Omnipath, exigieron un reinicio. Mientras Intel hacía planes para fabricar Data Center GPUs, Franza se vio envuelto en las discusiones sobre el diseño de la serie Intel Data Center GPU Max (nombre en código Ponte Vecchio).

De esta manera, Aurora no es solo un sistema único. Por el contrario, ayudó a informar la estrategia y la cartera de productos de Intel para abordar la escala y el rendimiento al más alto nivel.

«Infundimos todos los requisitos del sistema Aurora hasta el nivel de los componentes», afirma Franza.

La arquitectura y el concepto de la serie Intel Xeon CPU Max con memoria de gran ancho de banda, por ejemplo, fue generado por algunas características de la plataforma Intel Xeon Phi, el primer producto que integra una innovadora arquitectura de memoria para gran ancho de banda y alta capacidad en el paquete.

Además, la necesidad de alto rendimiento impulsó nuevos avances en todos los subsistemas, desde la solución termo mecánica de la hoja de cálculo hasta su densa integración física, pasando por el almacenamiento.

Intel terminó diseñando un concepto de almacenamiento completamente nuevo, DAOS (almacenamiento de objetos asíncrono distribuido)», dice Franza. Se trata de un ecosistema de software de código abierto que permite el almacenamiento de alta velocidad en hardware tradicional. «Aurora será uno de los primeros sistemas en utilizarlo, y con diferencia el más grande».»Aurora será uno de los primeros sistemas en usarlo, y por lejos el más grande».

Del diseño de componentes al ensamblaje de miles de sistemas
El proyecto Aurora impulsó el pensamiento a nivel de sistema y una amplia colaboración entre varias unidades de negocio de Intel, así como con científicos de Argonne e ingenieros de Hewlett Packard Enterprise, el otro socio principal del proyecto.

«Conseguir que todo el equipo se alinee y entregue una máquina como Aurora es, para muchos de nosotros, una experiencia única en la vida», afirma Franza.

Aunque los ingenieros instalaron el último módulo, el proyecto sigue manteniendo despierto a Franza mientras el sistema pasa por las etapas de prueba, estabilización y validación a gran escala.

Franza orienta a un gran equipo que trabaja en la puesta en marcha, validación, estabilización, optimización y habilitación de cargas de trabajo de rendimiento de todo el sistema. Lo más notable es la referencia High Performance Linpack (HPL) que determina los mejores sistemas del mundo, según certifica la lista bianual Top500.

Todas las mañanas, Franza asiste a la reunión diaria en la que se analizan las ejecuciones nocturnas de cada nodo y se elabora un plan de trabajo para el día siguiente y los siguientes. Cada tarde, una reunión de cierre resume los avances y los obstáculos. El trabajo nunca se detiene; la máquina siempre funciona. El trabajo nunca se detiene; la máquina siempre funciona.

«Tenemos un enfoque paso a paso para validar y estabilizar metódicamente a escala», explica. «Se empieza con el blade, luego se pasa al rack, luego a múltiples racks, y se escala a partir de ahí».

Aurora se compone de 10.624 blades de cálculo, con 63.744 GPU Intel Max Series -más GPU que cualquier otro sistema del mundo- y 21.248 CPU Intel Xeon Max repartidas en 166 racks.

«Tiene el tamaño de cuatro pistas de tenis, lo que parece mucho, ¿verdad?», dice. «Pero es solo cuando realmente vas a verlo que te das cuenta de la magnitud del proyecto».

Franza debe asegurarse de que el vasto sistema sea estable, funcional y rinda. Es una tarea de enormes proporciones, pero el final está al alcance de la mano.

«Caminar por los pasillos, con todas las luces encendidas, y sentir que la máquina está funcionando es impresionante y extremadamente gratificante», dice. «Es un logro muy tangible que habla por sí mismo».

Una supercomputadora «única en la vida» que cambiará la ciencia
Lo que le hace seguir adelante, a pesar de las dificultades técnicas y los obstáculos inesperados, es la oportunidad de construir «una máquina extraordinaria» que impulsará una investigación de gran impacto. Cita el enorme potencial de Aurora para la investigación del cáncer como un área donde el proyecto nos beneficiará a todos.

«Creo que eso es algo que nos va a hacer sentir muy orgullosos», dice.

Aurora no sólo trabajará en la resolución de algunos de los problemas científicos y de ingeniería más complejos del mundo, sino que también será una plataforma ideal para ejecutar IA generativa y aplicarla a la investigación. «Hará posible uno de los mayores modelos lingüísticos de gran tamaño planificados hasta la fecha, el proyecto Aurora GenAI de un billón de parámetros, mejorando, permitiendo y facilitando la vida de los científicos», afirma Franza.

«Es un esfuerzo prolongado y requiere mucha perseverancia», afirma. «El equipo central ha mantenido una mentalidad de maratón en la que no se acaba hasta que se acaba. Necesitábamos el tipo de personas que pueden concentrarse eficazmente durante mucho tiempo en algo inmensamente desafiante. Y al final, el logro es algo que muy pocos pueden decir que han conseguido».

DEJA UNA RESPUESTA

Por favor introduce tu comentario
Por favor introduce tus comentarios