Sleep-time Compute: Jenseits der Skalierung von Inferenzen zur Testzeit

papers.abstract

Die Skalierung der Rechenleistung zur Testzeit hat sich als Schlüsselelement erwiesen, um großen Sprachmodellen (LLMs) die Lösung schwieriger Probleme zu ermöglichen, geht jedoch mit hoher Latenz und hohen Inferenzkosten einher. Wir führen die Rechenleistung zur Schlafzeit ein, die es Modellen ermöglicht, offline über Kontexte „nachzudenken“, bevor Abfragen gestellt werden: Indem wir vorhersagen, welche Abfragen Nutzer stellen könnten, und nützliche Größen vorab berechnen, können wir den Rechenbedarf zur Testzeit erheblich reduzieren. Um die Wirksamkeit unserer Methode zu demonstrieren, erstellen wir modifizierte Versionen von zwei Aufgaben zur logischen Schlussfolgerung – Stateful GSM-Symbolic und Stateful AIME. Wir stellen fest, dass die Rechenleistung zur Schlafzeit den benötigten Rechenaufwand zur Testzeit, um die gleiche Genauigkeit zu erreichen, um das ~5-fache bei Stateful GSM-Symbolic und Stateful AIME reduzieren kann und dass wir durch die Skalierung der Rechenleistung zur Schlafzeit die Genauigkeit bei Stateful GSM-Symbolic um bis zu 13 % und bei Stateful AIME um bis zu 18 % weiter steigern können. Darüber hinaus führen wir Multi-Query GSM-Symbolic ein, das GSM-Symbolic um mehrere verwandte Abfragen pro Kontext erweitert. Indem wir die Rechenleistung zur Schlafzeit über verwandte Abfragen zum gleichen Kontext mit Multi-Query GSM-Symbolic amortisieren, können wir die durchschnittlichen Kosten pro Abfrage um das 2,5-fache senken. Anschließend führen wir zusätzliche Analysen durch, um zu verstehen, wann die Rechenleistung zur Schlafzeit am effektivsten ist, und stellen fest, dass die Vorhersagbarkeit der Nutzerabfrage gut mit der Wirksamkeit der Rechenleistung zur Schlafzeit korreliert. Abschließend führen wir eine Fallstudie durch, in der wir die Rechenleistung zur Schlafzeit auf eine realistische agentenbasierte SWE-Aufgabe anwenden.

English

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Sleep-time Compute: Jenseits der Skalierung von Inferenzen zur Testzeit

Sleep-time Compute: Beyond Inference Scaling at Test-time

papers.abstract

Support