Calcolo durante il sonno: Oltre il ridimensionamento dell'inferenza al momento del test
Sleep-time Compute: Beyond Inference Scaling at Test-time
April 17, 2025
Autori: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
cs.AI
Abstract
L'aumento della potenza di calcolo durante il test è emerso come un elemento chiave per consentire ai grandi modelli linguistici (LLM) di risolvere problemi complessi, ma comporta una latenza elevata e costi di inferenza significativi. Introduciamo il concetto di "calcolo durante il sonno", che permette ai modelli di "pensare" offline ai contesti prima che le query vengano presentate: anticipando le domande che gli utenti potrebbero porre e pre-calcolando quantità utili, possiamo ridurre notevolmente i requisiti di calcolo durante il test. Per dimostrare l'efficacia del nostro metodo, creiamo versioni modificate di due compiti di ragionamento: Stateful GSM-Symbolic e Stateful AIME. Troviamo che il calcolo durante il sonno può ridurre la quantità di calcolo necessaria durante il test per raggiungere la stessa accuratezza di circa 5x su Stateful GSM-Symbolic e Stateful AIME e che, aumentando il calcolo durante il sonno, possiamo ulteriormente migliorare l'accuratezza fino al 13% su Stateful GSM-Symbolic e al 18% su Stateful AIME. Inoltre, introduciamo Multi-Query GSM-Symbolic, che estende GSM-Symbolic includendo più query correlate per contesto. Ammortizzando il calcolo durante il sonno su query correlate riguardanti lo stesso contesto utilizzando Multi-Query GSM-Symbolic, possiamo ridurre il costo medio per query di 2.5x. Successivamente, conduciamo un'analisi aggiuntiva per comprendere quando il calcolo durante il sonno è più efficace, scoprendo che la prevedibilità della query dell'utente è ben correlata con l'efficacia del calcolo durante il sonno. Infine, conduciamo uno studio di caso applicando il calcolo durante il sonno a un compito realistico di agente SWE.
English
Scaling test-time compute has emerged as a key ingredient for enabling large
language models (LLMs) to solve difficult problems, but comes with high latency
and inference cost. We introduce sleep-time compute, which allows models to
"think" offline about contexts before queries are presented: by anticipating
what queries users might ask and pre-computing useful quantities, we can
significantly reduce the compute requirements at test-time. To demonstrate the
efficacy of our method, we create modified versions of two reasoning tasks -
Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can
reduce the amount of test-time compute needed to achieve the same accuracy by ~
5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time
compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic
and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic,
which extends GSM-Symbolic by including multiple related queries per context.
By amortizing sleep-time compute across related queries about the same context
using Multi-Query GSM-Symbolic, we can decrease the average cost per query by
2.5x. We then conduct additional analysis to understand when sleep-time compute
is most effective, finding the predictability of the user query to be well
correlated with the efficacy of sleep-time compute. Finally, we conduct a
case-study of applying sleep-time compute to a realistic agentic SWE task.Summary
AI-Generated Summary