Generalizzare il ridimensionamento ottimale del calcolo al tempo di test come grafo ottimizzabile

Abstract

Il Test-Time Scaling (TTS) migliora i grandi modelli linguistici (LLM) allocando calcolo aggiuntivo durante l'inferenza, tipicamente attraverso scaling parallelo, sequenziale o ibrido. Tuttavia, gli studi precedenti spesso assumono architetture di collaborazione fisse (ad esempio, topologie) e un utilizzo a modello singolo, trascurando il fatto che le architetture ottimali e le combinazioni di modelli possano variare a seconda dei task. Pertanto, studiamo il nuovo problema della ricerca di combinazioni di modelli e architetture computazionalmente ottimali nel TTS sotto un budget fisso. Lo formalizziamo come un grafo di collaborazione multi-LLM, in cui i nodi codificano ruoli e assegnazioni di modelli LLM, e gli archi catturano il flusso informativo. Questo problema è impegnativo perché (i) lo spazio combinatorio di ricerca è proibitivamente grande e (ii) i requisiti specifici del task richiedono progettazioni su misura. Per affrontarli, riformuliamo il problema come un'ottimizzazione probabilistica di grafi e, attraverso esperimenti pilota, ricaviamo tre intuizioni empiriche sui grafi di collaborazione TTS. Guidati da queste intuizioni, proponiamo Agent-REINFORCE, un framework potenziato da agenti LLM che rispecchia la pipeline REINFORCE mappando sampling-gradiente-aggiornamento in sampling-feedback-aggiornamento, dove il feedback funge da gradiente testuale per aggiornare il grafo probabilistico e cercare efficientemente grafi di collaborazione multi-LLM ottimali. Gli esperimenti mostrano che Agent-REINFORCE supera le baseline tradizionali e basate su LLM sia nell'efficienza campionaria che nelle prestazioni di ricerca, e identifica efficacemente grafi ottimali sotto obiettivi congiunti di accuratezza e latenza d'inferenza.

English

Test-Time Scaling (TTS) improves large language models (LLMs) by allocating additional computation during inference, typically through parallel, sequential, or hybrid scaling. However, prior studies often assume fixed collaboration architectures (e.g., topologies) and single-model usage, overlooking that optimal architectures and model combinations can vary across tasks. Therefore, we study the novel problem of searching for compute-optimal model combinations and architectures in TTS under a fixed budget. We formalize it as a multi-LLM collaboration graph, where nodes encode roles and LLM model assignments, and edges capture information flow. This problem is challenging because (i) the combinatorial search space is prohibitively large, and (ii) task-specific requirements demand tailored designs. To address these, we reformulate the problem as probabilistic graph optimization and, through pilot experiments, derive three empirical insights into TTS collaboration graphs. Guided by these insights, we propose Agent-REINFORCE, an LLM-agent-augmented framework that mirrors the REINFORCE pipeline by mapping sampling-gradient-update to sampling-feedback-update, where feedback serves as a textual gradient to update the probabilistic graph and efficiently search for optimal multi-LLM collaboration graphs. Experiments show that Agent-REINFORCE outperforms both traditional and LLM-based baselines in sample efficiency and search performance, and effectively identifies optimal graphs under joint objectives of accuracy and inference latency.

Generalizzare il ridimensionamento ottimale del calcolo al tempo di test come grafo ottimizzabile

Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

Abstract

Support