Généralisation de la mise à l'échelle optimale en calcul au moment du test comme un graphe optimisable

papers.abstract

Le Test-Time Scaling (TTS) améliore les grands modèles de langage (LLM) en allouant des calculs supplémentaires lors de l'inférence, généralement via un scaling parallèle, séquentiel ou hybride. Cependant, les études antérieures supposent souvent des architectures de collaboration fixes (par exemple, des topologies) et une utilisation à modèle unique, négligeant le fait que les architectures et combinaisons de modèles optimales peuvent varier selon les tâches. Par conséquent, nous étudions le nouveau problème de la recherche de combinaisons de modèles et d'architectures optimales en termes de calcul dans le TTS sous un budget fixe. Nous le formalisons comme un graphe de collaboration multi-LLM, où les nœuds encodent les rôles et les affectations de modèles LLM, et les arêtes capturent le flux d'information. Ce problème est difficile car (i) l'espace de recherche combinatoire est prohibitivement grand, et (ii) les exigences spécifiques aux tâches nécessitent des conceptions sur mesure. Pour y remédier, nous reformulons le problème comme une optimisation de graphe probabiliste et, grâce à des expériences pilotes, déduisons trois insights empiriques sur les graphes de collaboration TTS. Guidés par ces insights, nous proposons Agent-REINFORCE, un framework augmenté par un agent LLM qui reproduit le pipeline REINFORCE en mappant échantillonnage-gradient-mise à jour vers échantillonnage-feedback-mise à jour, où le feedback sert de gradient textuel pour mettre à jour le graphe probabiliste et rechercher efficacement les graphes de collaboration multi-LLM optimaux. Les expériences montrent qu'Agent-REINFORCE surpasse les bases de référence traditionnelles et basées sur les LLM en efficacité d'échantillonnage et en performance de recherche, et identifie efficacement les graphes optimaux sous des objectifs conjoints de précision et de latence d'inférence.

English

Test-Time Scaling (TTS) improves large language models (LLMs) by allocating additional computation during inference, typically through parallel, sequential, or hybrid scaling. However, prior studies often assume fixed collaboration architectures (e.g., topologies) and single-model usage, overlooking that optimal architectures and model combinations can vary across tasks. Therefore, we study the novel problem of searching for compute-optimal model combinations and architectures in TTS under a fixed budget. We formalize it as a multi-LLM collaboration graph, where nodes encode roles and LLM model assignments, and edges capture information flow. This problem is challenging because (i) the combinatorial search space is prohibitively large, and (ii) task-specific requirements demand tailored designs. To address these, we reformulate the problem as probabilistic graph optimization and, through pilot experiments, derive three empirical insights into TTS collaboration graphs. Guided by these insights, we propose Agent-REINFORCE, an LLM-agent-augmented framework that mirrors the REINFORCE pipeline by mapping sampling-gradient-update to sampling-feedback-update, where feedback serves as a textual gradient to update the probabilistic graph and efficiently search for optimal multi-LLM collaboration graphs. Experiments show that Agent-REINFORCE outperforms both traditional and LLM-based baselines in sample efficiency and search performance, and effectively identifies optimal graphs under joint objectives of accuracy and inference latency.

Généralisation de la mise à l'échelle optimale en calcul au moment du test comme un graphe optimisable

Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

papers.abstract

Support