A Microsoft acaba de anunciar o Maia 200, novo acelerador de inteligência artificial desenvolvido internamente e voltado para inferência de modelos em larga escala. Segundo a companhia, o hardware oferece desempenho superior aos aceleradores utilizados atualmente por concorrentes como Amazon e Google, além de apresentar um custo-benefício cerca de 30% maior em relação às gerações anteriores da própria Microsoft.
O Maia 200 já está em operação na região Central dos Estados Unidos do Azure e, de acordo com a empresa, deve chegar “em breve” à região West 3, no Arizona. O lançamento marca mais um passo da Microsoft na estratégia de verticalização de sua infraestrutura de IA, reduzindo a dependência de chips de terceiros e ampliando o controle sobre desempenho, escalabilidade e custos operacionais.
Do ponto de vista de desempenho bruto, o chip entrega mais de 10 petaFLOPS em precisão de 4 bits (FP4) e aproximadamente 5 petaFLOPS em precisão de 8 bits (FP8). Nos dados técnicos divulgados, a Microsoft afirma que o Maia 200 alcança desempenho FP4 três vezes superior ao do Amazon Trainium de terceira geração e supera o desempenho FP8 do TPU de sétima geração do Google. Segundo a companhia, um único node baseado no Maia 200 é capaz de executar os modelos atuais com margem suficiente para futuras expansões.
O chip, no entanto, não chegou ao mercado sem ajustes no cronograma. Inicialmente previsto para o fim de 2025, o Maia 200 sofreu um atraso de cerca de seis meses. A Microsoft atribui a mudança a alterações de projeto não previstas, além de restrições de pessoal e alta rotatividade, fatores que impactaram o desenvolvimento do hardware.
Especificações técnicas do Maia 200
Produzido com litografia de 3 nanômetros da TSMC, o Maia 200 reúne mais de 100 bilhões de transistores por chip. O acelerador utiliza um sistema de memória HBM3e de 216 GB, com largura de banda de até 7 TB/s, além de 272 MB de SRAM on-chip. O projeto inclui mecanismos específicos de movimentação de dados voltados para modelos de alta demanda computacional.
O subsistema de memória foi desenhado para operar com tipos de dados de precisão estreita, além de contar com engine DMA e uma fabric NoC, com o objetivo de sustentar altas taxas de largura de banda. A arquitetura adota um design de scale-up de dois níveis baseado em Ethernet, permitindo o crescimento modular da infraestrutura.
Cada unidade Maia 200 oferece 1,4 TB/s de largura de banda para operações em clusters que podem chegar a 6.144 aceleradores. Dentro de cada tray, quatro chips Maia são interligados por conexões diretas. O protocolo de comunicação é padronizado tanto para redes intra-rack quanto inter-rack, o que facilita o escalonamento entre diferentes estruturas de datacenter e reduz a complexidade de integração.
Aplicações e ecossistema
O Maia 200 será utilizado inicialmente pela equipe do Microsoft Superintelligence, com foco em geração de dados sintéticos e aprendizado por reforço. O acelerador também será empregado em cargas de trabalho do Microsoft Foundry e no Microsoft 365 Copilot, ampliando sua presença em serviços estratégicos da empresa.
De acordo com a Microsoft, a implementação do novo hardware nos racks de datacenter ocorreu em menos da metade do tempo observado em projetos anteriores, indicando ganhos de eficiência nos processos de implantação. Paralelamente, a empresa anunciou um preview do Maia SDK, voltado para desenvolvedores e laboratórios de pesquisa.
O pacote de software inclui o compilador Triton, suporte ao PyTorch, programação em NPL e um simulador para cálculo de custos e otimização de código. Segundo a companhia, o Maia 200 faz parte do projeto Maia AI, concebido como uma linha multigeracional para o desenvolvimento contínuo de novos aceleradores de processamento de inteligência artificial.


