VerlTool: Rumo a um Aprendizado por Reforço Agente Holístico com Uso de Ferramentas
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
Autores: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) demonstrou sucesso em aprimorar as capacidades de raciocínio de LLMs, mas permanece limitado a interações de turno único sem integração de ferramentas. Embora abordagens recentes de Aprendizado por Reforço Agente com Uso de Ferramentas (ARLT) tenham surgido para lidar com interações de múltiplos turnos com ferramentas, os trabalhos existentes desenvolvem bases de código específicas para tarefas que sofrem com fragmentação, gargalos de execução síncrona e extensibilidade limitada entre domínios. Essas ineficiências dificultam a adoção mais ampla pela comunidade e a inovação algorítmica. Apresentamos o VerlTool, uma estrutura unificada e modular que aborda essas limitações por meio de princípios de design sistemáticos. O VerlTool oferece quatro contribuições principais: (1) alinhamento upstream com o VeRL, garantindo compatibilidade e manutenção simplificada, (2) gerenciamento unificado de ferramentas por meio de APIs padronizadas que suportam diversas modalidades, incluindo execução de código, busca, bancos de dados SQL e processamento visual, (3) execução assíncrona de rollout, alcançando um aumento de velocidade de quase 2 vezes ao eliminar gargalos de sincronização, e (4) avaliação abrangente demonstrando desempenho competitivo em 6 domínios de ARLT. Nossa estrutura formaliza o ARLT como trajetórias de múltiplos turnos com tokens de observação multimodais (texto/imagem/vídeo), estendendo-se além dos paradigmas de RLVR de turno único. Treinamos e avaliamos modelos em tarefas de raciocínio matemático, QA de conhecimento, geração de SQL, raciocínio visual, busca na web e engenharia de software, alcançando resultados comparáveis a sistemas especializados enquanto fornecemos uma infraestrutura de treinamento unificada. A arquitetura modular de plugins permite integração rápida de ferramentas, exigindo apenas definições leves em Python, reduzindo significativamente a sobrecarga de desenvolvimento e fornecendo uma base escalável para pesquisa em RL aumentado por ferramentas. Nosso código é de código aberto em https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.