AgentTTS: Агент на основе крупной языковой модели для стратегии оптимального масштабирования вычислений в тестовом режиме при выполнении сложных задач
AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks
July 26, 2025
Авторы: Fali Wang, Hui Liu, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Zongyu Wu, Chen Luo, Zhen Li, Xianfeng Tang, Qi He, Suhang Wang
cs.AI
Аннотация
Масштабирование во время тестирования (Test-Time Scaling, TTS) повышает производительность больших языковых моделей (LLM) за счет выделения дополнительных вычислительных ресурсов на этапе вывода. Однако существующие исследования в основном сосредоточены на TTS в одноэтапных задачах, тогда как многие реальные проблемы представляют собой многоэтапные сложные задачи, состоящие из последовательности разнородных подзадач, каждая из которых требует LLM с определенными возможностями. Поэтому мы изучаем новую проблему: оптимальное распределение вычислительных ресурсов во время тестирования в многоэтапных сложных задачах, направленное на выбор подходящих моделей и распределение бюджета для каждой подзадачи с целью максимизации общей производительности. TTS в многоэтапных задачах ставит два фундаментальных вызова: (i) Комбинаторное пространство поиска для распределения моделей и бюджета, в сочетании с высокой стоимостью вывода, делает полный перебор непрактичным. (ii) Оптимальное распределение моделей и бюджета между подзадачами взаимозависимо, что увеличивает сложность поиска оптимальных вычислительных решений. Для решения этой проблемы мы провели обширные пилотные эксперименты на четырех задачах с использованием шести наборов данных, получив три эмпирических инсайта, характеризующих поведение LLM в многоэтапных сложных задачах. На основе этих инсайтов мы предлагаем AgentTTS — фреймворк на основе LLM-агентов, который автономно ищет оптимальные распределения вычислительных ресурсов через итеративное взаимодействие с исполняемой средой, основанное на обратной связи. Результаты экспериментов показывают, что AgentTTS значительно превосходит традиционные и другие LLM-ориентированные подходы по эффективности поиска, а также демонстрирует повышенную устойчивость к изменению размеров обучающих наборов и улучшенную интерпретируемость.
English
Test-time scaling (TTS) enhances the performance of large language models
(LLMs) by allocating additional compute resources during inference. However,
existing research primarily investigates TTS in single-stage tasks; while many
real-world problems are multi-stage complex tasks, composed of a sequence of
heterogeneous subtasks with each subtask requires LLM of specific capability.
Therefore, we study a novel problem: the test-time compute-optimal scaling in
multi-stage complex tasks, aiming to select suitable models and allocate
budgets per subtask to maximize overall performance. TTS in multi-stage tasks
introduces two fundamental challenges: (i) The combinatorial search space of
model and budget allocations, combined with the high cost of inference, makes
brute-force search impractical. (ii) The optimal model and budget allocations
across subtasks are interdependent, increasing the complexity of the
compute-optimal search. To address this gap, we conduct extensive pilot
experiments on four tasks across six datasets, deriving three empirical
insights characterizing the behavior of LLMs in multi-stage complex tasks.
Informed by these insights, we propose AgentTTS, an LLM-agent-based framework
that autonomously searches for compute-optimal allocations through iterative
feedback-driven interactions with the execution environment. Experimental
results demonstrate that AgentTTS significantly outperforms traditional and
other LLM-based baselines in search efficiency, and shows improved robustness
to varying training set sizes and enhanced interpretability.