AgentTTS: Modello Linguistico di Grande Scala come Agente per Strategie di Scalabilità Ottimale al Tempo di Test in Compiti Complessi
AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks
July 26, 2025
Autori: Fali Wang, Hui Liu, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Zongyu Wu, Chen Luo, Zhen Li, Xianfeng Tang, Qi He, Suhang Wang
cs.AI
Abstract
Il ridimensionamento al momento del test (Test-Time Scaling, TTS) migliora le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, la ricerca esistente si concentra principalmente sul TTS in compiti a stadio singolo, mentre molti problemi del mondo reale sono compiti complessi multi-stadio, composti da una sequenza di sottocompiti eterogenei, ciascuno dei quali richiede un LLM con capacità specifiche. Pertanto, studiamo un nuovo problema: il ridimensionamento computazionale ottimale al momento del test in compiti complessi multi-stadio, con l'obiettivo di selezionare modelli adatti e allocare budget per ogni sottocompito per massimizzare le prestazioni complessive. Il TTS in compiti multi-stadio introduce due sfide fondamentali: (i) Lo spazio di ricerca combinatorio delle allocazioni di modelli e budget, combinato con l'elevato costo dell'inferenza, rende impraticabile una ricerca a forza bruta. (ii) Le allocazioni ottimali di modelli e budget tra i sottocompiti sono interdipendenti, aumentando la complessità della ricerca computazionale ottimale. Per colmare questa lacuna, conduciamo ampi esperimenti pilota su quattro compiti in sei dataset, derivando tre intuizioni empiriche che caratterizzano il comportamento dei LLM in compiti complessi multi-stadio. Sulla base di queste intuizioni, proponiamo AgentTTS, un framework basato su agenti LLM che ricerca autonomamente allocazioni computazionali ottimali attraverso interazioni iterative guidate dal feedback con l'ambiente di esecuzione. I risultati sperimentali dimostrano che AgentTTS supera significativamente i metodi tradizionali e altri approcci basati su LLM in termini di efficienza di ricerca, mostrando inoltre una maggiore robustezza rispetto a dimensioni variabili del set di addestramento e una migliore interpretabilità.
English
Test-time scaling (TTS) enhances the performance of large language models
(LLMs) by allocating additional compute resources during inference. However,
existing research primarily investigates TTS in single-stage tasks; while many
real-world problems are multi-stage complex tasks, composed of a sequence of
heterogeneous subtasks with each subtask requires LLM of specific capability.
Therefore, we study a novel problem: the test-time compute-optimal scaling in
multi-stage complex tasks, aiming to select suitable models and allocate
budgets per subtask to maximize overall performance. TTS in multi-stage tasks
introduces two fundamental challenges: (i) The combinatorial search space of
model and budget allocations, combined with the high cost of inference, makes
brute-force search impractical. (ii) The optimal model and budget allocations
across subtasks are interdependent, increasing the complexity of the
compute-optimal search. To address this gap, we conduct extensive pilot
experiments on four tasks across six datasets, deriving three empirical
insights characterizing the behavior of LLMs in multi-stage complex tasks.
Informed by these insights, we propose AgentTTS, an LLM-agent-based framework
that autonomously searches for compute-optimal allocations through iterative
feedback-driven interactions with the execution environment. Experimental
results demonstrate that AgentTTS significantly outperforms traditional and
other LLM-based baselines in search efficiency, and shows improved robustness
to varying training set sizes and enhanced interpretability.