Processamento Samsung em tecnologia de memória na Hot Chips 2023

No Hot Chips 2023 (35) a Samsung está falando novamente sobre seu processamento em memória (PIM) com novas pesquisas e uma nova reviravolta. Já abordamos isso anteriormente, por exemplo, em nossos Hot Chips 33 Samsung HBM2-PIM e Aquabolt-XL. Agora, a Samsung está mostrando isso no contexto da IA.

Como isso está sendo feito ao vivo no auditório, desculpe os erros de digitação. Hot Chips é um ritmo louco.

Um dos maiores custos da computação é mover dados de diferentes locais de armazenamento e memória para os mecanismos de computação reais.

Atualmente, as empresas tentam adicionar mais pistas ou canais para diferentes tipos de memória. Isso tem seus limites.

Samsung está discutindo CXL. O CXL ajuda porque permite coisas como redirecionar fios para PCIe para fornecer mais largura de banda de memória. Discutiremos mais sobre dispositivos CXL Tipo 3 no futuro no STH e já os abordamos algumas vezes.

A Samsung está discutindo gargalos do GPT.

A Samsung traçou o perfil das cargas de trabalho vinculadas à memória e à carga computacional do GPT.

Aqui está um pouco mais sobre o trabalho de criação de perfil em termos de utilização e tempo de execução.

A Samsung mostra como partes do pipeline de computação podem ser transferidas para módulos de processamento na memória (PIM).

Fazer o processamento no módulo de memória, em vez do acelerador, economiza a movimentação de dados, reduzindo o consumo de energia e os custos de interconexão.

Enquanto a SK hynix falava sobre GDDR6 para sua solução, a Samsung mostra sua memória de alta largura de banda HBM-PIM. Estaremos mostrando HBM em CPUs Intel Xeon MAX na próxima semana em STH, mas isso não está usando este novo tipo de memória.

Aparentemente, a Samsung e a AMD tinham MI100 com HBM-PIM em vez de apenas PIM padrão para que pudessem construir um cluster para ter o que parece ser um cluster de 12 nós e 8 aceleradores para testar a nova memória.

Veja como o modelo T5-MoE usa HBM-PIM no cluster.

Aqui estão os ganhos de desempenho e eficiência energética.

Uma grande parte disso também é como fazer com que os módulos PIM façam um trabalho útil. Isso requer trabalho de software para programar e utilizar os módulos PIM.

A Samsung espera obter esses módulos de programação padrão integrados.

Aqui está o OneMCC para o estado futuro da computação acoplada à memória, mas isso parece um estado futuro, e não atual.

Parece que a Samsung está exibindo não apenas o HBM-PIM, mas também um LPDDR-PIM. Como tudo hoje, é necessário um rótulo de IA generativa.

Este parece ser mais um conceito do que o HBM-PIM que está sendo usado nos AMD MI100 em um cluster.

Este LPDDR-PIM tem apenas 102,4 GB/s de largura de banda interna, mas a ideia é que manter a computação no módulo de memória significa menor consumo de energia por não ter que transmitir os dados de volta para a CPU ou xPU.

Aqui está a arquitetura com os bancos PIM e bancos DRAM no módulo.

Aqui está a aparência da análise de desempenho e potência nos possíveis módulos LP5-PIM.

Se HBM-PIM e LPDDR-PIM não bastassem, a Samsung está pensando em colocar computação em módulos CXL no PNM-CXL.

A ideia aqui não é apenas colocar memória em módulos CXL Type-3. Em vez disso, a Samsung propõe colocar computação no módulo CXL. Isso pode ser feito adicionando um elemento de computação ao módulo CXL e usando memória padrão ou usando PIM nos módulos e um controlador CXL mais padrão.

Claro, temos uma demonstração de como isso ajuda a IA generativa no lado GPT.

A Samsung possui um cartão CXL-PNM conceitual de 512 GB com até 1,1 TB/s de largura de banda.

Aqui está a pilha de software CXL-PNM proposta pela Samsung.

Aqui estão as economias de energia e o rendimento esperados para cargas de trabalho LLM em grande escala. O CXL geralmente passa por fios também usados para PCIe, então os custos de energia para transmissão de dados são muito altos. Como resultado, há grandes ganhos ao poder evitar essa transferência de dados.

A Samsung também está focada nas reduções de emissões como resultado do acima exposto.

O Google deu hoje uma grande palestra sobre as emissões de CO2 na computação de IA. Planejamos cobrir isso ainda esta semana no STH.