Calcolo durante il sonno: Oltre il ridimensionamento dell'inferenza al momento del test

Abstract

L'aumento della potenza di calcolo durante il test è emerso come un elemento chiave per consentire ai grandi modelli linguistici (LLM) di risolvere problemi complessi, ma comporta una latenza elevata e costi di inferenza significativi. Introduciamo il concetto di "calcolo durante il sonno", che permette ai modelli di "pensare" offline ai contesti prima che le query vengano presentate: anticipando le domande che gli utenti potrebbero porre e pre-calcolando quantità utili, possiamo ridurre notevolmente i requisiti di calcolo durante il test. Per dimostrare l'efficacia del nostro metodo, creiamo versioni modificate di due compiti di ragionamento: Stateful GSM-Symbolic e Stateful AIME. Troviamo che il calcolo durante il sonno può ridurre la quantità di calcolo necessaria durante il test per raggiungere la stessa accuratezza di circa 5x su Stateful GSM-Symbolic e Stateful AIME e che, aumentando il calcolo durante il sonno, possiamo ulteriormente migliorare l'accuratezza fino al 13% su Stateful GSM-Symbolic e al 18% su Stateful AIME. Inoltre, introduciamo Multi-Query GSM-Symbolic, che estende GSM-Symbolic includendo più query correlate per contesto. Ammortizzando il calcolo durante il sonno su query correlate riguardanti lo stesso contesto utilizzando Multi-Query GSM-Symbolic, possiamo ridurre il costo medio per query di 2.5x. Successivamente, conduciamo un'analisi aggiuntiva per comprendere quando il calcolo durante il sonno è più efficace, scoprendo che la prevedibilità della query dell'utente è ben correlata con l'efficacia del calcolo durante il sonno. Infine, conduciamo uno studio di caso applicando il calcolo durante il sonno a un compito realistico di agente SWE.

English

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Calcolo durante il sonno: Oltre il ridimensionamento dell'inferenza al momento del test

Sleep-time Compute: Beyond Inference Scaling at Test-time

Abstract

Support