Rekentijd tijdens slaap: Voorbij schaalvergroting van inferentie tijdens testtijd

Samenvatting

Het opschalen van rekenkracht tijdens testen is naar voren gekomen als een cruciaal ingrediënt om grote taalmmodellen (LLMs) in staat te stellen moeilijke problemen op te lossen, maar gaat gepaard met hoge latentie en inferentiekosten. Wij introduceren slaaptijd-rekenkracht, waardoor modellen offline kunnen "nadenken" over contexten voordat queries worden gepresenteerd: door te anticiperen op welke queries gebruikers zouden kunnen stellen en nuttige hoeveelheden vooraf te berekenen, kunnen we de rekenvereisten tijdens testen aanzienlijk verminderen. Om de effectiviteit van onze methode aan te tonen, creëren we aangepaste versies van twee redeneertaken - Stateful GSM-Symbolic en Stateful AIME. We ontdekken dat slaaptijd-rekenkracht de benodigde rekenkracht tijdens testen om dezelfde nauwkeurigheid te bereiken met ~5x kan verminderen op Stateful GSM-Symbolic en Stateful AIME, en dat door het opschalen van slaaptijd-rekenkracht we de nauwkeurigheid verder kunnen verhogen met tot 13% op Stateful GSM-Symbolic en 18% op Stateful AIME. Bovendien introduceren we Multi-Query GSM-Symbolic, dat GSM-Symbolic uitbreidt door meerdere gerelateerde queries per context op te nemen. Door slaaptijd-rekenkracht te amortiseren over gerelateerde queries over dezelfde context met behulp van Multi-Query GSM-Symbolic, kunnen we de gemiddelde kosten per query met 2,5x verlagen. Vervolgens voeren we aanvullende analyses uit om te begrijpen wanneer slaaptijd-rekenkracht het meest effectief is, waarbij we ontdekken dat de voorspelbaarheid van de gebruikersquery goed gecorreleerd is met de effectiviteit van slaaptijd-rekenkracht. Tot slot voeren we een casestudy uit van het toepassen van slaaptijd-rekenkracht op een realistische agentische SWE-taak.

English

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Rekentijd tijdens slaap: Voorbij schaalvergroting van inferentie tijdens testtijd

Sleep-time Compute: Beyond Inference Scaling at Test-time

Samenvatting

Support