Opschalen van testtijdberekening voor LLM-agents
Scaling Test-time Compute for LLM Agents
June 15, 2025
Auteurs: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Samenvatting
Het opschalen van rekentijd tijdens testen heeft opmerkelijke successen laten zien in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). In dit werk voeren we de eerste systematische verkenning uit van het toepassen van testtijd-opschalingsmethoden op taalagentschappen en onderzoeken we in hoeverre dit hun effectiviteit verbetert. Specifiek verkennen we verschillende testtijd-opschalingsstrategieën, waaronder: (1) parallelle sampling-algoritmen; (2) sequentiële revisiestrategieën; (3) verificatiemethoden en samenvoegingsmethoden; (4) strategieën voor het diversifiëren van rollouts. We analyseren en isoleren zorgvuldig de impact van verschillende ontwerpstrategieën op het toepassen van testtijd-opschaling op taalagentschappen en komen tot de volgende bevindingen: 1. Het opschalen van rekentijd tijdens testen kan de prestaties van agentschappen verbeteren. 2. Weten wanneer te reflecteren is belangrijk voor agentschappen. 3. Onder verschillende verificatie- en resultaatsamenvoegingsbenaderingen presteert de lijstgewijze methode het beste. 4. Het vergroten van gediversifieerde rollouts heeft een positief effect op de taakprestaties van het agentschap.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.