ChatPaper.aiChatPaper

Skalierung der Testzeitberechnung mit latenter Schlussfolgerung: Ein rekurrenter Tiefenansatz

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

February 7, 2025
Autoren: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI

Zusammenfassung

Wir untersuchen eine neuartige Architektur für Sprachmodelle, die in der Lage ist, die Rechenleistung zur Testzeit durch implizites Schlussfolgern im latenten Raum zu skalieren. Unser Modell funktioniert, indem es einen rekurrenten Block iteriert und sich somit zur Testzeit beliebig tief entfaltet. Dies steht im Gegensatz zu gängigen Schlussfolgerungsmodellen, die die Rechenleistung durch die Erzeugung von mehr Tokens erhöhen. Im Gegensatz zu Ansätzen, die auf Ketten von Gedanken basieren, erfordert unser Ansatz keine spezialisierten Trainingsdaten, kann mit kleinen Kontextfenstern arbeiten und kann Arten des Schlussfolgerns erfassen, die nicht leicht in Worte gefasst werden können. Wir skalieren ein Proof-of-Concept-Modell auf 3,5 Milliarden Parameter und 800 Milliarden Tokens. Wir zeigen, dass das resultierende Modell seine Leistung bei Schlussfolgerungstests verbessern kann, manchmal sogar dramatisch, bis zu einer Rechenlast, die der von 50 Milliarden Parametern entspricht.
English
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

Summary

AI-Generated Summary

PDF14012February 10, 2025