Pesquisadores dobram a velocidade de treinamento de IA apenas recuperando tempo ocioso da GPU.

MENU RÁPIDO

Últimos eventos

28/02/2026

SUMMER HITS no Edifício Martinelli!

Começa as 14:00 e termina as 22:00
06/03/2026

Club415 apresenta Armin van Buuren

Começa as 22:00 e termina as 5:30

Publicidade AD

Achados Shopee

Por Debasish | 28 de Fevereiro de 2026 Fonte: Gizmochina

Treinar modelos de linguagem de grande porte é extremamente caro. Não se trata apenas de ter mais GPUs, mas sim da eficiência com que você as utiliza. E à medida que os modelos crescem, até mesmo pequenas ineficiências podem se transformar em custos enormes de tempo e energia.

Agora, uma equipe de pesquisadores do MIT, trabalhando com colaboradores como a NVidia, afirma ter encontrado uma maneira surpreendentemente prática de recuperar o poder computacional desperdiçado durante o treinamento — em alguns casos, reduzindo o tempo total de treinamento quase pela metade.

O problema que eles estão tentando resolver reside no aprendizado por reforço (RL), particularmente durante a chamada fase de “implementação”. Essa é a etapa em que um modelo gera múltiplas respostas candidatas para que possa aprender quais comportamentos levam a melhores resultados. É essencial para modelos de aprendizagem baseados em raciocínio — mas também é um processo lento.

Na verdade, a fase de implementação pode representar até 85% do tempo total de execução. O culpado é algo que os pesquisadores chamam de “distribuição de cauda longa” nos comprimentos das respostas. A maioria das respostas geradas termina rapidamente. Mas um pequeno número delas demora muito mais do que a média. Como as GPUs precisam sincronizar, as mais rápidas muitas vezes ficam ociosas esperando que as mais lentas terminem.

A solução da equipe do MIT, chamada Taming the Long Tail (TLT), enfrenta esse desperdício de frente. Em vez de deixar as GPUs ociosas durante essas longas gerações, o TLT usa esse tempo ocioso para treinar um modelo “rascunho” leve em tempo real. Esse modelo menor aprende continuamente com o modelo principal à medida que o treinamento progride.

A ideia se baseia na decodificação especulativa, uma técnica na qual um modelo menor prevê tokens antes do modelo principal, permitindo que múltiplos tokens sejam verificados em paralelo. A decodificação especulativa tradicional depende de um modelo preliminar fixo, que rapidamente se torna obsoleto à medida que o modelo principal evolui durante o aprendizado por reforço.

A TLT altera essa dinâmica. Ao treinar novamente o desenhista de forma oportunista, utilizando recursos que de outra forma estariam ociosos, o sistema mantém o modelo de rascunho alinhado com o modelo principal, sem exigir computação dedicada adicional.

Em experimentos com diversos modelos de lógica de aprendizagem (LLMs) focados em raciocínio e conjuntos de dados do mundo real, os resultados foram significativos. Os pesquisadores relatam acelerações de treinamento de ponta a ponta que variam de 70% a 210% em comparação com linhas de base robustas, efetivamente dobrando a velocidade de treinamento em muitos cenários. É importante ressaltar que a precisão do modelo permaneceu inalterada.

Existe também um benefício secundário interessante: o próprio desenhista continuamente treinado torna-se um artefato útil. Como é treinado em conjunto com o modelo principal, pode servir como um modelo de inferência eficiente em certos contextos.

O trabalho aponta para um tema mais amplo na pesquisa em IA atualmente: otimização em vez de força bruta. Em vez de expandir clusters indefinidamente, os pesquisadores estão cada vez mais buscando maneiras de extrair mais desempenho do hardware já existente.

Se abordagens como a TLT se mostrarem robustas em escalas industriais maiores, elas poderão reduzir significativamente os custos financeiros e ambientais do treinamento de modelos de raciocínio de próxima geração.