VerlTool: Naar een Holistische Agent-Gestuurde Versterkend Leren met Gereedschapsgebruik
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
Auteurs: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft succes aangetoond in het verbeteren van de redeneervaardigheden van LLM's, maar blijft beperkt tot enkelvoudige interacties zonder toolintegratie. Hoewel recente benaderingen van Agentic Reinforcement Learning met Toolgebruik (ARLT) zijn ontstaan om meervoudige toolinteracties aan te pakken, ontwikkelen bestaande werken taakspecifieke codebases die lijden onder fragmentatie, synchronisatieknelpunten en beperkte uitbreidbaarheid over domeinen. Deze inefficiënties belemmeren een bredere adoptie door de gemeenschap en algoritmische innovatie. Wij introduceren VerlTool, een uniform en modulair framework dat deze beperkingen aanpakt door middel van systematische ontwerpprincipes. VerlTool biedt vier belangrijke bijdragen: (1) upstream-afstemming met VeRL, wat compatibiliteit en vereenvoudigd onderhoud garandeert, (2) uniform toolbeheer via gestandaardiseerde API's die diverse modaliteiten ondersteunen, waaronder code-uitvoering, zoeken, SQL-databases en beeldverwerking, (3) asynchrone uitvoering van rollouts die een bijna 2x versnelling bereikt door synchronisatieknelpunten te elimineren, en (4) een uitgebreide evaluatie die competitieve prestaties aantoont over 6 ARLT-domeinen. Ons framework formaliseert ARLT als meervoudige trajecten met multi-modale observatietokens (tekst/beeld/video), wat verder gaat dan enkelvoudige RLVR-paradigma's. We trainen en evalueren modellen op wiskundig redeneren, kennis-QA, SQL-generatie, visueel redeneren, webzoeken en software-engineeringtaken, waarbij resultaten worden behaald die vergelijkbaar zijn met gespecialiseerde systemen, terwijl een uniforme trainingsinfrastructuur wordt geboden. De modulaire pluginarchitectuur maakt snelle toolintegratie mogelijk die slechts lichtgewicht Python-definities vereist, wat de ontwikkelingslast aanzienlijk vermindert en een schaalbare basis biedt voor onderzoek naar tool-augmented RL. Onze code is open-source beschikbaar op https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.