VerlTool : Vers un apprentissage par renforcement agentique holistique avec utilisation d'outils
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
papers.authors: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a démontré son efficacité pour améliorer les capacités de raisonnement des modèles de langage (LLM), mais reste limité à des interactions en un seul tour sans intégration d'outils. Bien que des approches récentes d'apprentissage par renforcement agentique avec utilisation d'outils (ARLT) aient émergé pour gérer les interactions multi-tours avec des outils, les travaux existants développent des bases de code spécifiques à des tâches, souffrant de fragmentation, de goulots d'étranglement liés à l'exécution synchrone et d'une extensibilité limitée entre les domaines. Ces inefficacités entravent l'adoption plus large par la communauté et l'innovation algorithmique. Nous présentons VerlTool, un cadre unifié et modulaire qui résout ces limitations grâce à des principes de conception systématiques. VerlTool apporte quatre contributions clés : (1) un alignement en amont avec VeRL assurant compatibilité et maintenance simplifiée, (2) une gestion unifiée des outils via des API standardisées prenant en charge diverses modalités, y compris l'exécution de code, la recherche, les bases de données SQL et le traitement visuel, (3) une exécution asynchrone des déploiements permettant un accélération de près de 2 fois en éliminant les goulots d'étranglement de synchronisation, et (4) une évaluation complète démontrant des performances compétitives dans 6 domaines ARLT. Notre cadre formalise l'ARLT comme des trajectoires multi-tours avec des jetons d'observation multi-modaux (texte/image/vidéo), dépassant les paradigmes RLVR en un seul tour. Nous entraînons et évaluons des modèles sur des tâches de raisonnement mathématique, de questions-réponses sur la connaissance, de génération SQL, de raisonnement visuel, de recherche web et d'ingénierie logicielle, obtenant des résultats comparables à des systèmes spécialisés tout en fournissant une infrastructure d'entraînement unifiée. L'architecture modulaire en plugins permet une intégration rapide des outils nécessitant uniquement des définitions Python légères, réduisant significativement la surcharge de développement et offrant une base évolutive pour la recherche en apprentissage par renforcement augmenté par des outils. Notre code est open-source à l'adresse https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.