Вычислительные ресурсы во время сна: выходя за рамки масштабирования вывода на этапе тестирования

Аннотация

Масштабирование вычислительных ресурсов на этапе тестирования стало ключевым фактором, позволяющим крупным языковым моделям (LLM) решать сложные задачи, однако это сопровождается высокой задержкой и стоимостью вывода. Мы представляем концепцию "вычислений в режиме ожидания", которая позволяет моделям "размышлять" о контекстах в автономном режиме до появления запросов: предвосхищая возможные вопросы пользователей и предварительно вычисляя полезные данные, мы можем значительно снизить требования к вычислительным ресурсам на этапе тестирования. Чтобы продемонстрировать эффективность нашего метода, мы создаем модифицированные версии двух задач на логическое рассуждение — Stateful GSM-Symbolic и Stateful AIME. Мы обнаруживаем, что вычисления в режиме ожидания могут сократить объем вычислительных ресурсов, необходимых для достижения той же точности, примерно в 5 раз для Stateful GSM-Symbolic и Stateful AIME, а масштабирование таких вычислений позволяет дополнительно повысить точность до 13% для Stateful GSM-Symbolic и 18% для Stateful AIME. Кроме того, мы представляем Multi-Query GSM-Symbolic, который расширяет GSM-Symbolic, включая несколько связанных запросов для одного контекста. Распределяя вычисления в режиме ожидания между связанными запросами об одном контексте с помощью Multi-Query GSM-Symbolic, мы можем снизить среднюю стоимость одного запроса в 2,5 раза. Затем мы проводим дополнительный анализ, чтобы понять, когда вычисления в режиме ожидания наиболее эффективны, и обнаруживаем, что предсказуемость запроса пользователя хорошо коррелирует с эффективностью таких вычислений. Наконец, мы проводим кейс-стади применения вычислений в режиме ожидания к реалистичной задаче агентного программного обеспечения (SWE).

English

Scaling test-time compute has emerged as a key ingredient for enabling large language models (LLMs) to solve difficult problems, but comes with high latency and inference cost. We introduce sleep-time compute, which allows models to "think" offline about contexts before queries are presented: by anticipating what queries users might ask and pre-computing useful quantities, we can significantly reduce the compute requirements at test-time. To demonstrate the efficacy of our method, we create modified versions of two reasoning tasks - Stateful GSM-Symbolic and Stateful AIME. We find that sleep-time compute can reduce the amount of test-time compute needed to achieve the same accuracy by ~ 5x on Stateful GSM-Symbolic and Stateful AIME and that by scaling sleep-time compute we can further increase accuracy by up to 13% on Stateful GSM-Symbolic and 18% on Stateful AIME. Furthermore, we introduce Multi-Query GSM-Symbolic, which extends GSM-Symbolic by including multiple related queries per context. By amortizing sleep-time compute across related queries about the same context using Multi-Query GSM-Symbolic, we can decrease the average cost per query by 2.5x. We then conduct additional analysis to understand when sleep-time compute is most effective, finding the predictability of the user query to be well correlated with the efficacy of sleep-time compute. Finally, we conduct a case-study of applying sleep-time compute to a realistic agentic SWE task.

Вычислительные ресурсы во время сна: выходя за рамки масштабирования вывода на этапе тестирования

Sleep-time Compute: Beyond Inference Scaling at Test-time

Аннотация

Support