Skalierung der Testzeit-Berechnungen für LLM-Agenten
Scaling Test-time Compute for LLM Agents
June 15, 2025
Autoren: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Zusammenfassung
Die Skalierung der Rechenleistung zur Testzeit hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) gezeigt. In dieser Arbeit führen wir die erste systematische Untersuchung zur Anwendung von Testzeit-Skalierungsmethoden auf Sprachagenten durch und untersuchen, inwieweit dies deren Effektivität steigert. Konkret erforschen wir verschiedene Testzeit-Skalierungsstrategien, darunter: (1) parallele Sampling-Algorithmen; (2) sequenzielle Revisionsstrategien; (3) Verifizierer und Zusammenführungsmethoden; (4) Strategien zur Diversifizierung von Rollouts. Wir analysieren und untersuchen sorgfältig die Auswirkungen verschiedener Designstrategien auf die Anwendung der Testzeit-Skalierung bei Sprachagenten und kommen zu folgenden Erkenntnissen: 1. Die Skalierung der Rechenleistung zur Testzeit kann die Leistung von Agenten verbessern. 2. Es ist wichtig, dass Agenten wissen, wann sie reflektieren sollten. 3. Unter den verschiedenen Verifizierungs- und Ergebniszusammenführungsansätzen schneidet die listenbasierte Methode am besten ab. 4. Die Erhöhung diversifizierter Rollouts hat einen positiven Effekt auf die Aufgabenleistung des Agenten.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.