ChatPaper.aiChatPaper

Het opschalen van testtijd berekeningen met latente redenering: Een recurrente diepte benadering.

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

February 7, 2025
Auteurs: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI

Samenvatting

We bestuderen een nieuw architectuurmodel voor taal dat in staat is om de berekeningstijd bij het testen te schalen door impliciet redeneren in een latente ruimte. Ons model werkt door een recurrent blok te herhalen, waardoor het bij het testen tot willekeurige dieptes kan worden uitgerold. Dit staat in contrast met gangbare redeneringsmodellen die de berekening opschalen door meer tokens te produceren. In tegenstelling tot benaderingen gebaseerd op keten-van-gedachten, vereist onze benadering geen gespecialiseerde trainingsdata, kan werken met kleine contextvensters, en kan typen redeneringen vastleggen die niet gemakkelijk in woorden kunnen worden weergegeven. We schalen een proof-of-concept model naar 3,5 miljard parameters en 800 miljard tokens. We tonen aan dat het resulterende model zijn prestaties op redeneer-benchmarks kan verbeteren, soms aanzienlijk, tot een rekenbelasting equivalent aan 50 miljard parameters.
English
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

Summary

AI-Generated Summary

PDF14012February 10, 2025