Generaliserende schaalwetten voor rekentijdoptimalisatie tijdens testen als optimaliseerbare grafiek
Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
October 29, 2025
Auteurs: Fali Wang, Jihai Chen, Shuhua Yang, Runxue Bao, Tianxiang Zhao, Zhiwei Zhang, Xianfeng Tang, Hui Liu, Qi He, Suhang Wang
cs.AI
Samenvatting
Test-Time Scaling (TTS) verbetert grote taalmodelmodellen (LLM's) door extra rekenkracht toe te wijzen tijdens de inferentie, meestal via parallelle, sequentiële of hybride schaling. Eerdere studies gaan echter vaak uit van vaste samenwerkingsarchitecturen (bijvoorbeeld topologieën) en het gebruik van één model, waarbij wordt over het hoofd gezien dat optimale architecturen en modelcombinaties per taak kunnen verschillen. Daarom bestuderen wij het nieuwe probleem van het zoeken naar rekenkundig optimale modelcombinaties en architecturen in TTS onder een vast budget. Wij formaliseren dit als een multi-LLM-samenwerkingsgraaf, waarbij knooppunten rollen en LLM-modeltoewijzingen coderen, en edges de informatiestroom vastleggen. Dit probleem is uitdagend omdat (i) de combinatorische zoekruimte onhaalbaar groot is, en (ii) taakspecifieke eisen op maat gemaakte ontwerpen vereisen. Om deze problemen aan te pakken, herformuleren we het probleem als probabilistische graafoptimalisatie en leiden we via pilootexperimenten drie empirische inzichten af over TTS-samenwerkingsgrafen. Geleid door deze inzichten, stellen we Agent-REINFORCE voor, een LLM-agent-aangevuld framework dat de REINFORCE-pijplijn nabootst door steekproef-gradient-update te vertalen naar steekproef-feedback-update, waarbij feedback dient als een tekstuele gradiënt om de probabilistische graaf bij te werken en efficiënt te zoeken naar optimale multi-LLM-samenwerkingsgrafen. Experimenten tonen aan dat Agent-REINFORCE zowel traditionele als LLM-gebaseerde baseline-methoden overtreft in steekproefefficiëntie en zoekprestaties, en effectief optimale grafen identificeert onder gezamenlijke doelstellingen van nauwkeurigheid en inferentielatentie.
English
Test-Time Scaling (TTS) improves large language models (LLMs) by allocating
additional computation during inference, typically through parallel,
sequential, or hybrid scaling. However, prior studies often assume fixed
collaboration architectures (e.g., topologies) and single-model usage,
overlooking that optimal architectures and model combinations can vary across
tasks. Therefore, we study the novel problem of searching for compute-optimal
model combinations and architectures in TTS under a fixed budget. We formalize
it as a multi-LLM collaboration graph, where nodes encode roles and LLM model
assignments, and edges capture information flow. This problem is challenging
because (i) the combinatorial search space is prohibitively large, and (ii)
task-specific requirements demand tailored designs. To address these, we
reformulate the problem as probabilistic graph optimization and, through pilot
experiments, derive three empirical insights into TTS collaboration graphs.
Guided by these insights, we propose Agent-REINFORCE, an LLM-agent-augmented
framework that mirrors the REINFORCE pipeline by mapping
sampling-gradient-update to sampling-feedback-update, where feedback serves as
a textual gradient to update the probabilistic graph and efficiently search for
optimal multi-LLM collaboration graphs. Experiments show that Agent-REINFORCE
outperforms both traditional and LLM-based baselines in sample efficiency and
search performance, and effectively identifies optimal graphs under joint
objectives of accuracy and inference latency.