Mise à l'échelle du calcul en phase de test pour les agents de modèles de langage de grande taille

Résumé

L'augmentation du temps de calcul lors des tests a démontré un succès remarquable dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLM). Dans ce travail, nous menons la première exploration systématique de l'application des méthodes de mise à l'échelle au moment des tests aux agents linguistiques et étudions dans quelle mesure cela améliore leur efficacité. Plus précisément, nous explorons différentes stratégies de mise à l'échelle au moment des tests, notamment : (1) les algorithmes d'échantillonnage parallèle ; (2) les stratégies de révision séquentielle ; (3) les vérificateurs et méthodes de fusion ; (4) les stratégies pour diversifier les déploiements. Nous analysons et évaluons soigneusement l'impact des différentes stratégies de conception sur l'application de la mise à l'échelle au moment des tests aux agents linguistiques, et obtenons les conclusions suivantes : 1. L'augmentation du temps de calcul lors des tests peut améliorer les performances des agents. 2. Savoir quand réfléchir est important pour les agents. 3. Parmi les différentes approches de vérification et de fusion des résultats, la méthode par liste est la plus performante. 4. L'augmentation des déploiements diversifiés a un effet positif sur la performance des tâches des agents.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.