Aumentando a Computação no Tempo de Teste com Raciocínio Latente: Uma Abordagem de Profundidade Recorrente
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
February 7, 2025
Autores: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI
Resumo
Estudamos uma arquitetura de modelo de linguagem inovadora capaz de escalar a computação no momento do teste por meio de raciocínio implícito no espaço latente. Nosso modelo funciona iterando um bloco recorrente, desenrolando-se assim para profundidades arbitrárias no momento do teste. Isso contrasta com os modelos de raciocínio convencionais que aumentam a computação produzindo mais tokens. Ao contrário das abordagens baseadas em encadeamento de pensamentos, nossa abordagem não requer nenhum dado de treinamento especializado, pode trabalhar com janelas de contexto pequenas e pode capturar tipos de raciocínio que não são facilmente representados em palavras. Escalonamos um modelo de prova de conceito para 3,5 bilhões de parâmetros e 800 bilhões de tokens. Mostramos que o modelo resultante pode melhorar seu desempenho em benchmarks de raciocínio, às vezes de forma dramática, até uma carga de computação equivalente a 50 bilhões de parâmetros.
English
We study a novel language model architecture that is capable of scaling
test-time computation by implicitly reasoning in latent space. Our model works
by iterating a recurrent block, thereby unrolling to arbitrary depth at
test-time. This stands in contrast to mainstream reasoning models that scale up
compute by producing more tokens. Unlike approaches based on chain-of-thought,
our approach does not require any specialized training data, can work with
small context windows, and can capture types of reasoning that are not easily
represented in words. We scale a proof-of-concept model to 3.5 billion
parameters and 800 billion tokens. We show that the resulting model can improve
its performance on reasoning benchmarks, sometimes dramatically, up to a
computation load equivalent to 50 billion parameters.Summary
AI-Generated Summary