O tecido NVSwitch que é o centro do DGX H100 SuperPOD

Normalmente, quando olhamos para um sistema, pensamos nos mecanismos de computação em detalhes muito sutis e, em seguida, trabalhamos através das complexidades dos nós e, em seguida, da interconexão e da pilha de software que o escala através dos nós em uma plataforma de computação distribuída. .

Mas desta vez, quando revisarmos os muitos anúncios que a Nvidia está fazendo em seu evento online GPU Technical Conference 2022, queremos começar na camada intermediária, onde os nós encontram a rede, e subir, porque é isso que faz a Nvidia um verdadeiro concorrente como fabricante de sistemas de computação de alto desempenho – ou seja, máquinas projetadas para executar IA, HPC, cargas de trabalho de análise de dados e não apenas simulação e modelagem de HPC tradicionais.

Na verdade, acreditamos que as inovações lançadas no GTC 2022 deste ano farão da Nvidia um dos principais contratantes para tais sistemas operando em exaescala e além.

Para jogar esse jogo, você precisa ter arquitetura e muito dinheiro, e a Nvidia claramente tem ambos. Com a IBM basicamente fora do jogo, os supercomputadores de classe de capacidade estão chegando à Hewlett Packard Enterprise, Nvidia, Fujitsu (esta última sendo praticamente focada no RIKEN Lab no Japão e em alguns outros centros que compram chips do “K” e “ blocos Fugaku”) e Atos (que está fazendo muitos negócios com seus sistemas BullSequana na Europa). Dell, Lenovo e Inspur concentram-se principalmente em máquinas de classe de capacidade necessárias com base em peças de commodities e são projetadas principalmente para executar muitos trabalhos pequenos simultaneamente, em vez de dimensionar alguns trabalhos grandes, um de cada vez; A HPE obviamente também joga aqui. E depois de sete anos de funcionamento e de seu trabalho como contratante principal no supercomputador “Aurora”, muito adiado, no Laboratório Nacional de Argonne, a Intel não está mais interessada em ser contratante principal no mercado de HPC, e a empresa admitiu isso para nós recentemente. A AMD também não demonstrou tal interesse.

Acreditamos que há um valor inerente em ser um fornecedor full-stack e um construtor de sistemas, como a Nvidia é, mas também permitir que os clientes construam sistemas usando os melhores componentes (ou disponíveis atualmente), ou ter OEMs ou ODMs para fazer isso. isso para eles.

A Nvidia é a única que fornece componentes como a AMD e a Intel, mas também fornece sistemas completos se os clientes quiserem comprá-los. (A Intel usou a Cray e depois a HPE como fabricante do sistema, mesmo quando era o principal contratante da máquina Aurora.) A Nvidia deixou de fornecer apenas GPUs para criar suas próprias placas de sistema HGX, completas com interconexão de memória de GPU NVSwitch e motores de GPU, que pode ser acoplado via PCI-Express a placas-mãe host X86. Para isso, a Nvidia pode trazer rede Quantum InfiniBand para conectar nós e rede Spectrum Ethernet para gerenciamento de sistema e acesso ao sistema distribuído, todos usando placas de interface de rede ConnectX nos servidores. Para quem deseja fazer offload e multitenancy, existem DPUs BlueField, que vêm com processadores Arm com opção de acelerador de GPU.

A Nvidia pode ter entrado no negócio de supercomputadores a partir dos jogos, como admitiu o cofundador e CEO da empresa, Jensen Huang, na conferência de supercomputação SC11, mas está a todo vapor desde que a Nvidia precisou construir seus próprios supercomputadores para fazer seu design e verificação de chip, bem como ampliar o treinamento de IA para seus muitos modelos de redes neurais e casos de uso.

Daí as várias gerações de supercomputadores “Saturn V” e “Selene”, que apresentaram todas as tecnologias da Nvidia e sua engenhosa fabricação de sistemas DXG. Com a adição da Mellanox Technologies há dois anos, a Nvidia poderia cobrir todo o hardware, exceto as CPUs, a memória principal e o flash. Com o chip de servidor “Grace” Arm personalizado de 72 núcleos, revelado no evento GTC do ano passado e lançado no primeiro semestre do próximo ano, a Nvidia será capaz de fornecer isso, e tem algumas reviravoltas interessantes na arquitetura que lhe darão alguns vantagens sérias. Se a Nvidia comprasse a Micron Technology – e não estamos sugerindo que a Nvidia deveria fazer isso – ela poderia fazer todo o hardware do sistema.

blog

O tecido NVSwitch que é o centro do DGX H100 SuperPOD