VerlTool: Verso un Apprendimento per Rinforzo Agente Olistico con l'Utilizzo di Strumenti
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
Autori: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha dimostrato successo nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM), ma rimane limitato a interazioni a turno singolo senza integrazione di strumenti. Sebbene recenti approcci di Agentic Reinforcement Learning con utilizzo di strumenti (ARLT) siano emersi per affrontare interazioni multi-turno con strumenti, i lavori esistenti sviluppano codebase specifiche per task che soffrono di frammentazione, colli di bottiglia nell'esecuzione sincrona e limitata estensibilità tra domini. Queste inefficienze ostacolano una più ampia adozione da parte della comunità e l'innovazione algoritmica. Introduciamo VerlTool, un framework unificato e modulare che affronta queste limitazioni attraverso principi di progettazione sistematici. VerlTool fornisce quattro contributi chiave: (1) allineamento a monte con VeRL garantendo compatibilità e manutenzione semplificata, (2) gestione unificata degli strumenti tramite API standardizzate che supportano diverse modalità, inclusa l'esecuzione di codice, ricerca, database SQL ed elaborazione visiva, (3) esecuzione asincrona del rollout che raggiunge un aumento di velocità quasi 2 volte eliminando i colli di bottiglia di sincronizzazione, e (4) valutazione completa che dimostra prestazioni competitive in 6 domini ARLT. Il nostro framework formalizza l'ARLT come traiettorie multi-turno con token di osservazione multi-modali (testo/immagine/video), estendendosi oltre i paradigmi RLVR a turno singolo. Addestriamo e valutiamo modelli su task di ragionamento matematico, QA di conoscenza, generazione SQL, ragionamento visivo, ricerca web e ingegneria del software, ottenendo risultati comparabili a sistemi specializzati mentre forniamo un'infrastruttura di addestramento unificata. L'architettura modulare a plugin consente una rapida integrazione di strumenti richiedendo solo definizioni Python leggere, riducendo significativamente il sovraccarico di sviluppo e fornendo una base scalabile per la ricerca sul RL potenziato da strumenti. Il nostro codice è open-source all'indirizzo https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.