Calcul pendant le sommeil : Au-delà de la mise à l'échelle de l'inférence au moment du test

papers.abstract

L'augmentation du calcul au moment du test est apparue comme un ingrédient clé pour permettre aux grands modèles de langage (LLM) de résoudre des problèmes complexes, mais elle s'accompagne d'une latence élevée et de coûts d'inférence importants. Nous introduisons le calcul pendant le temps de veille, qui permet aux modèles de "réfléchir" hors ligne à des contextes avant que les requêtes ne soient présentées : en anticipant les questions que les utilisateurs pourraient poser et en pré-calculant des quantités utiles, nous pouvons considérablement réduire les besoins en calcul au moment du test. Pour démontrer l'efficacité de notre méthode, nous créons des versions modifiées de deux tâches de raisonnement - Stateful GSM-Symbolic et Stateful AIME. Nous constatons que le calcul pendant le temps de veille peut réduire la quantité de calcul nécessaire au moment du test pour atteindre la même précision d'environ 5 fois sur Stateful GSM-Symbolic et Stateful AIME, et qu'en augmentant le calcul pendant le temps de veille, nous pouvons encore améliorer la précision jusqu'à 13 % sur Stateful GSM-Symbolic et 18 % sur Stateful AIME. De plus, nous introduisons Multi-Query GSM-Symbolic, qui étend GSM-Symbolic en incluant plusieurs requêtes liées par contexte. En amortissant le calcul pendant le temps de veille sur des requêtes liées concernant le même contexte à l'aide de Multi-Query GSM-Symbolic, nous pouvons réduire le coût moyen par requête de 2,5 fois. Nous menons ensuite une analyse supplémentaire pour comprendre quand le calcul pendant le temps de veille est le plus efficace, constatant que la prévisibilité de la requête de l'utilisateur est bien corrélée avec l'efficacité du calcul pendant le temps de veille. Enfin, nous réalisons une étude de cas sur l'application du calcul pendant le temps de veille à une tâche réaliste d'agent logiciel (SWE).

English

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Calcul pendant le sommeil : Au-delà de la mise à l'échelle de l'inférence au moment du test

Sleep-time Compute: Beyond Inference Scaling at Test-time

papers.abstract

Support