AgentTTS: Modello Linguistico di Grande Scala come Agente per Strategie di Scalabilità Ottimale al Tempo di Test in Compiti Complessi

Abstract

Il ridimensionamento al momento del test (Test-Time Scaling, TTS) migliora le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, la ricerca esistente si concentra principalmente sul TTS in compiti a stadio singolo, mentre molti problemi del mondo reale sono compiti complessi multi-stadio, composti da una sequenza di sottocompiti eterogenei, ciascuno dei quali richiede un LLM con capacità specifiche. Pertanto, studiamo un nuovo problema: il ridimensionamento computazionale ottimale al momento del test in compiti complessi multi-stadio, con l'obiettivo di selezionare modelli adatti e allocare budget per ogni sottocompito per massimizzare le prestazioni complessive. Il TTS in compiti multi-stadio introduce due sfide fondamentali: (i) Lo spazio di ricerca combinatorio delle allocazioni di modelli e budget, combinato con l'elevato costo dell'inferenza, rende impraticabile una ricerca a forza bruta. (ii) Le allocazioni ottimali di modelli e budget tra i sottocompiti sono interdipendenti, aumentando la complessità della ricerca computazionale ottimale. Per colmare questa lacuna, conduciamo ampi esperimenti pilota su quattro compiti in sei dataset, derivando tre intuizioni empiriche che caratterizzano il comportamento dei LLM in compiti complessi multi-stadio. Sulla base di queste intuizioni, proponiamo AgentTTS, un framework basato su agenti LLM che ricerca autonomamente allocazioni computazionali ottimali attraverso interazioni iterative guidate dal feedback con l'ambiente di esecuzione. I risultati sperimentali dimostrano che AgentTTS supera significativamente i metodi tradizionali e altri approcci basati su LLM in termini di efficienza di ricerca, mostrando inoltre una maggiore robustezza rispetto a dimensioni variabili del set di addestramento e una migliore interpretabilità.

English

Test-time scaling (TTS) enhances the performance of large language models (LLMs) by allocating additional compute resources during inference. However, existing research primarily investigates TTS in single-stage tasks; while many real-world problems are multi-stage complex tasks, composed of a sequence of heterogeneous subtasks with each subtask requires LLM of specific capability. Therefore, we study a novel problem: the test-time compute-optimal scaling in multi-stage complex tasks, aiming to select suitable models and allocate budgets per subtask to maximize overall performance. TTS in multi-stage tasks introduces two fundamental challenges: (i) The combinatorial search space of model and budget allocations, combined with the high cost of inference, makes brute-force search impractical. (ii) The optimal model and budget allocations across subtasks are interdependent, increasing the complexity of the compute-optimal search. To address this gap, we conduct extensive pilot experiments on four tasks across six datasets, deriving three empirical insights characterizing the behavior of LLMs in multi-stage complex tasks. Informed by these insights, we propose AgentTTS, an LLM-agent-based framework that autonomously searches for compute-optimal allocations through iterative feedback-driven interactions with the execution environment. Experimental results demonstrate that AgentTTS significantly outperforms traditional and other LLM-based baselines in search efficiency, and shows improved robustness to varying training set sizes and enhanced interpretability.

AgentTTS: Modello Linguistico di Grande Scala come Agente per Strategie di Scalabilità Ottimale al Tempo di Test in Compiti Complessi

AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

Abstract

Support