Opschalen van testtijdberekening voor LLM-agents

Samenvatting

Het opschalen van rekentijd tijdens testen heeft opmerkelijke successen laten zien in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). In dit werk voeren we de eerste systematische verkenning uit van het toepassen van testtijd-opschalingsmethoden op taalagentschappen en onderzoeken we in hoeverre dit hun effectiviteit verbetert. Specifiek verkennen we verschillende testtijd-opschalingsstrategieën, waaronder: (1) parallelle sampling-algoritmen; (2) sequentiële revisiestrategieën; (3) verificatiemethoden en samenvoegingsmethoden; (4) strategieën voor het diversifiëren van rollouts. We analyseren en isoleren zorgvuldig de impact van verschillende ontwerpstrategieën op het toepassen van testtijd-opschaling op taalagentschappen en komen tot de volgende bevindingen: 1. Het opschalen van rekentijd tijdens testen kan de prestaties van agentschappen verbeteren. 2. Weten wanneer te reflecteren is belangrijk voor agentschappen. 3. Onder verschillende verificatie- en resultaatsamenvoegingsbenaderingen presteert de lijstgewijze methode het beste. 4. Het vergroten van gediversifieerde rollouts heeft een positief effect op de taakprestaties van het agentschap.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.

Opschalen van testtijdberekening voor LLM-agents

Scaling Test-time Compute for LLM Agents

Samenvatting

Support