Skalierung der Testzeitberechnung mit latenter Schlussfolgerung: Ein rekurrenter TiefenansatzScaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth
Approach
Wir untersuchen eine neuartige Architektur für Sprachmodelle, die in der Lage ist, die Rechenleistung zur Testzeit durch implizites Schlussfolgern im latenten Raum zu skalieren. Unser Modell funktioniert, indem es einen rekurrenten Block iteriert und sich somit zur Testzeit beliebig tief entfaltet. Dies steht im Gegensatz zu gängigen Schlussfolgerungsmodellen, die die Rechenleistung durch die Erzeugung von mehr Tokens erhöhen. Im Gegensatz zu Ansätzen, die auf Ketten von Gedanken basieren, erfordert unser Ansatz keine spezialisierten Trainingsdaten, kann mit kleinen Kontextfenstern arbeiten und kann Arten des Schlussfolgerns erfassen, die nicht leicht in Worte gefasst werden können. Wir skalieren ein Proof-of-Concept-Modell auf 3,5 Milliarden Parameter und 800 Milliarden Tokens. Wir zeigen, dass das resultierende Modell seine Leistung bei Schlussfolgerungstests verbessern kann, manchmal sogar dramatisch, bis zu einer Rechenlast, die der von 50 Milliarden Parametern entspricht.