LLM улучшают LLM: Агентное открытие для тестового масштабирования
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
May 8, 2026
Авторы: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
cs.AI
Аннотация
Масштабирование во время тестирования (TTS) стало эффективным подходом к повышению производительности больших языковых моделей за счет выделения дополнительных вычислительных ресурсов на этапе логического вывода. Однако существующие стратегии TTS в значительной степени являются ручными: исследователи вручную разрабатывают шаблоны рассуждений и настраивают эвристики, опираясь на интуицию, что оставляет значительную часть пространства распределения вычислений неизученной. Мы предлагаем средо-ориентированную структуру AutoTTS, которая меняет объект разработки: от отдельных эвристик TTS к средам, в которых стратегии TTS могут обнаруживаться автоматически. Ключевой элемент AutoTTS заключается в построении среды: среда поиска должна делать пространство управления разреженным и обеспечивать дешевую, частую обратную связь для поиска TTS. В качестве конкретной реализации мы формулируем TTS по ширине и глубине как синтез контроллера на основе предварительно собранных траекторий рассуждений и зондирующих сигналов, где контроллеры решают, когда ветвиться, продолжать, зондировать, обрезать или останавливаться, и могут быть оценены дешево без повторных вызовов LLM. Мы также вводим бета-параметризацию, чтобы сделать поиск разреженным, и детализированную обратную связь по трассе выполнения, чтобы повысить эффективность поиска, помогая агенту диагностировать, почему программа TTS дает сбой. Эксперименты на эталонных задачах математических рассуждений показывают, что обнаруженные стратегии улучшают общий компромисс между точностью и затратами по сравнению с сильными вручную разработанными базовыми линиями. Обнаруженные стратегии обобщаются на удерживаемые эталонные задачи и масштабы моделей, при этом весь процесс поиска стоит всего 39,9 долларов США и занимает 160 минут. Наши данные и код будут опубликованы в открытом доступе по адресу https://github.com/zhengkid/AutoTTS.
English
Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.