Вычислительные ресурсы во время сна: выходя за рамки масштабирования вывода на этапе тестирования
Sleep-time Compute: Beyond Inference Scaling at Test-time
April 17, 2025
Авторы: Kevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
cs.AI
Аннотация
Масштабирование вычислительных ресурсов на этапе тестирования стало ключевым фактором, позволяющим крупным языковым моделям (LLM) решать сложные задачи, однако это сопровождается высокой задержкой и стоимостью вывода. Мы представляем концепцию "вычислений в режиме ожидания", которая позволяет моделям "размышлять" о контекстах в автономном режиме до появления запросов: предвосхищая возможные вопросы пользователей и предварительно вычисляя полезные данные, мы можем значительно снизить требования к вычислительным ресурсам на этапе тестирования. Чтобы продемонстрировать эффективность нашего метода, мы создаем модифицированные версии двух задач на логическое рассуждение — Stateful GSM-Symbolic и Stateful AIME. Мы обнаруживаем, что вычисления в режиме ожидания могут сократить объем вычислительных ресурсов, необходимых для достижения той же точности, примерно в 5 раз для Stateful GSM-Symbolic и Stateful AIME, а масштабирование таких вычислений позволяет дополнительно повысить точность до 13% для Stateful GSM-Symbolic и 18% для Stateful AIME. Кроме того, мы представляем Multi-Query GSM-Symbolic, который расширяет GSM-Symbolic, включая несколько связанных запросов для одного контекста. Распределяя вычисления в режиме ожидания между связанными запросами об одном контексте с помощью Multi-Query GSM-Symbolic, мы можем снизить среднюю стоимость одного запроса в 2,5 раза. Затем мы проводим дополнительный анализ, чтобы понять, когда вычисления в режиме ожидания наиболее эффективны, и обнаруживаем, что предсказуемость запроса пользователя хорошо коррелирует с эффективностью таких вычислений. Наконец, мы проводим кейс-стади применения вычислений в режиме ожидания к реалистичной задаче агентного программного обеспечения (SWE).
English
Scaling test-time compute has emerged as a key ingredient for enabling large
language models (LLMs) to solve difficult problems, but comes with high latency
and inference cost. We introduce sleep-time compute, which allows models to
"think" offline about contexts before queries are presented: by anticipating
what queries users might ask and pre-computing useful quantities, we can
significantly reduce the compute requirements at test-time. To demonstrate the
efficacy of our method, we create modified versions of two reasoning tasks -
Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can
reduce the amount of test-time compute needed to achieve the same accuracy by ~
5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time
compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic
and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic,
which extends GSM-Symbolic by including multiple related queries per context.
By amortizing sleep-time compute across related queries about the same context
using Multi-Query GSM-Symbolic, we can decrease the average cost per query by
2.5x. We then conduct additional analysis to understand when sleep-time compute
is most effective, finding the predictability of the user query to be well
correlated with the efficacy of sleep-time compute. Finally, we conduct a
case-study of applying sleep-time compute to a realistic agentic SWE task.Summary
AI-Generated Summary