Scaling up Test-Time Compute with Latent Reasoning: Un Approccio a Profondità Ricorrente
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
February 7, 2025
Autori: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI
Abstract
Studiamo una nuova architettura di modello linguistico in grado di scalare il calcolo al momento del test ragionando implicitemente nello spazio latente. Il nostro modello funziona iterando un blocco ricorrente, srotolando quindi a profondità arbitraria al momento del test. Questo si contrappone ai modelli di ragionamento tradizionali che aumentano il calcolo producendo più token. A differenza degli approcci basati sulla concatenazione di pensieri, il nostro metodo non richiede dati di addestramento specializzati, può lavorare con finestre di contesto ridotte e può catturare tipi di ragionamento non facilmente rappresentabili con le parole. Scaliamo un modello di prova a 3,5 miliardi di parametri e 800 miliardi di token. Dimostriamo che il modello risultante può migliorare le sue prestazioni su benchmark di ragionamento, a volte in modo significativo, fino a un carico computazionale equivalente a 50 miliardi di parametri.
English
We study a novel language model architecture that is capable of scaling
test-time computation by implicitly reasoning in latent space. Our model works
by iterating a recurrent block, thereby unrolling to arbitrary depth at
test-time. This stands in contrast to mainstream reasoning models that scale up
compute by producing more tokens. Unlike approaches based on chain-of-thought,
our approach does not require any specialized training data, can work with
small context windows, and can capture types of reasoning that are not easily
represented in words. We scale a proof-of-concept model to 3.5 billion
parameters and 800 billion tokens. We show that the resulting model can improve
its performance on reasoning benchmarks, sometimes dramatically, up to a
computation load equivalent to 50 billion parameters.Summary
AI-Generated Summary