LLM's verbeteren LLM's: agentische ontdekking voor testtijdschaling
LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
May 8, 2026
Auteurs: Tong Zheng, Haolin Liu, Chengsong Huang, Huiwen Bao, Sheng Zhang, Rui Liu, Runpeng Dai, Ruibo Chen, Chenxi Liu, Tianyi Xiong, Xidong Wu, Hongming Zhang, Heng Huang
cs.AI
Samenvatting
Testtijdschaling (TTS) is een effectieve aanpak geworden om de prestaties van grote taalmodellen te verbeteren door extra rekenkracht toe te wijzen tijdens het redeneren. Bestaande TTS-strategieën zijn echter grotendeels handmatig ontworpen: onderzoekers ontwerpen handmatig redeneerpatronen en stemmen heuristieken af op intuïtie, waardoor een groot deel van de ruimte voor rekentoewijzing onverkend blijft. Wij stellen een omgevingsgestuurd raamwerk voor, AutoTTS, dat verandert wat onderzoekers ontwerpen: van individuele TTS-heuristieken naar omgevingen waarin TTS-strategieën automatisch kunnen worden ontdekt. De sleutel tot AutoTTS ligt in het construeren van de omgeving: de ontdekkingsomgeving moet de controleruimte hanteerbaar maken en goedkope, frequente feedback bieden voor het zoeken naar TTS. Als concrete uitwerking formuleren we breedte-diepte TTS als controllersynthese over vooraf verzamelde redeneertrajecten en probesignalen, waarbij controllers beslissen wanneer ze vertakken, doorgaan, een probe uitvoeren, snoeien of stoppen, en die goedkoop kunnen worden geëvalueerd zonder herhaalde LLM-aanroepen. We introduceren verder bètaparametrisatie om het zoeken hanteerbaar te maken en gedetailleerde uitvoeringsspoorfeedback om de ontdekkingsefficiëntie te verbeteren doordat de agent kan diagnosticeren waarom een TTS-programma faalt. Experimenten op wiskundige redeneerbenchmarks tonen aan dat de ontdekte strategieën de algehele afweging tussen nauwkeurigheid en kosten verbeteren ten opzichte van sterke handmatig ontworpen baselines. De ontdekte strategieën generaliseren naar niet-geziene benchmarks en modelschalen, terwijl de gehele ontdekking slechts $39,9 en 160 minuten kost. Onze gegevens en code zullen open source beschikbaar zijn op https://github.com/zhengkid/AutoTTS.
English
Test-time scaling (TTS) has become an effective approach for improving large language model performance by allocating additional computation during inference. However, existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored. We propose an environment-driven framework, AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically. The key to AutoTTS lies in environment construction: the discovery environment must make the control space tractable and provide cheap, frequent feedback for TTS search. As a concrete instantiation, we formulate width--depth TTS as controller synthesis over pre-collected reasoning trajectories and probe signals, where controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls. We further introduce beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails. Experiments on mathematical reasoning benchmarks show that the discovered strategies improve the overall accuracy--cost tradeoff over strong manually designed baselines. The discovered strategies generalize to held-out benchmarks and model scales, while the entire discovery costs only $39.9 and 160 minutes. Our data, and code will be open-source at https://github.com/zhengkid/AutoTTS.