Expansion de la puissance de calcul au moment du test avec un raisonnement latent : une approche de profondeur récurrente
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
February 7, 2025
Auteurs: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI
Résumé
Nous étudions une nouvelle architecture de modèle de langage capable de mettre à l'échelle le calcul au moment du test en raisonnant implicitement dans un espace latent. Notre modèle fonctionne en itérant un bloc récurrent, se déroulant ainsi à une profondeur arbitraire au moment du test. Cela contraste avec les modèles de raisonnement classiques qui mettent à l'échelle le calcul en produisant plus de jetons. Contrairement aux approches basées sur la chaîne de pensée, notre approche ne nécessite pas de données d'entraînement spécialisées, peut fonctionner avec de petites fenêtres contextuelles, et peut capturer des types de raisonnement qui ne sont pas facilement représentés en mots. Nous mettons à l'échelle un modèle de preuve de concept à 3,5 milliards de paramètres et 800 milliards de jetons. Nous montrons que le modèle résultant peut améliorer ses performances sur des bancs d'essai de raisonnement, parfois de manière spectaculaire, jusqu'à une charge de calcul équivalente à 50 milliards de paramètres.
English
We study a novel language model architecture that is capable of scaling
test-time computation by implicitly reasoning in latent space. Our model works
by iterating a recurrent block, thereby unrolling to arbitrary depth at
test-time. This stands in contrast to mainstream reasoning models that scale up
compute by producing more tokens. Unlike approaches based on chain-of-thought,
our approach does not require any specialized training data, can work with
small context windows, and can capture types of reasoning that are not easily
represented in words. We scale a proof-of-concept model to 3.5 billion
parameters and 800 billion tokens. We show that the resulting model can improve
its performance on reasoning benchmarks, sometimes dramatically, up to a
computation load equivalent to 50 billion parameters.Summary
AI-Generated Summary