Aumentando a Computação no Tempo de Teste com Raciocínio Latente: Uma Abordagem de Profundidade RecorrenteScaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth
Approach
Estudamos uma arquitetura de modelo de linguagem inovadora capaz de escalar a computação no momento do teste por meio de raciocínio implícito no espaço latente. Nosso modelo funciona iterando um bloco recorrente, desenrolando-se assim para profundidades arbitrárias no momento do teste. Isso contrasta com os modelos de raciocínio convencionais que aumentam a computação produzindo mais tokens. Ao contrário das abordagens baseadas em encadeamento de pensamentos, nossa abordagem não requer nenhum dado de treinamento especializado, pode trabalhar com janelas de contexto pequenas e pode capturar tipos de raciocínio que não são facilmente representados em palavras. Escalonamos um modelo de prova de conceito para 3,5 bilhões de parâmetros e 800 bilhões de tokens. Mostramos que o modelo resultante pode melhorar seu desempenho em benchmarks de raciocínio, às vezes de forma dramática, até uma carga de computação equivalente a 50 bilhões de parâmetros.