ChatPaper.aiChatPaper

VerlTool: Hacia un Aprendizaje por Refuerzo Agéntico Holístico con Uso de Herramientas

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

September 1, 2025
Autores: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado éxito en la mejora de las capacidades de razonamiento de los LLM, pero sigue limitado a interacciones de un solo turno sin integración de herramientas. Si bien han surgido enfoques recientes de Aprendizaje por Refuerzo Agéntico con Uso de Herramientas (ARLT) para abordar interacciones multi-turno con herramientas, los trabajos existentes desarrollan bases de código específicas para tareas que sufren de fragmentación, cuellos de botella en la ejecución sincrónica y una extensibilidad limitada entre dominios. Estas ineficiencias dificultan la adopción más amplia por parte de la comunidad y la innovación algorítmica. Presentamos VerlTool, un marco unificado y modular que aborda estas limitaciones a través de principios de diseño sistemáticos. VerlTool ofrece cuatro contribuciones clave: (1) alineación ascendente con VeRL, asegurando compatibilidad y mantenimiento simplificado, (2) gestión unificada de herramientas mediante APIs estandarizadas que admiten diversas modalidades, incluyendo ejecución de código, búsqueda, bases de datos SQL y procesamiento visual, (3) ejecución asincrónica de despliegue que logra una aceleración de casi 2 veces al eliminar los cuellos de botella de sincronización, y (4) evaluación integral que demuestra un rendimiento competitivo en 6 dominios de ARLT. Nuestro marco formaliza ARLT como trayectorias multi-turno con tokens de observación multi-modal (texto/imagen/video), extendiéndose más allá de los paradigmas de RLVR de un solo turno. Entrenamos y evaluamos modelos en tareas de razonamiento matemático, preguntas y respuestas de conocimiento, generación de SQL, razonamiento visual, búsqueda web e ingeniería de software, logrando resultados comparables a sistemas especializados mientras proporcionamos una infraestructura de entrenamiento unificada. La arquitectura modular de plugins permite una rápida integración de herramientas que solo requiere definiciones ligeras en Python, reduciendo significativamente la sobrecarga de desarrollo y proporcionando una base escalable para la investigación de RL aumentado con herramientas. Nuestro código es de código abierto en https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated success in enhancing LLM reasoning capabilities, but remains limited to single-turn interactions without tool integration. While recent Agentic Reinforcement Learning with Tool use (ARLT) approaches have emerged to address multi-turn tool interactions, existing works develop task-specific codebases that suffer from fragmentation, synchronous execution bottlenecks, and limited extensibility across domains. These inefficiencies hinder broader community adoption and algorithmic innovation. We introduce VerlTool, a unified and modular framework that addresses these limitations through systematic design principles. VerlTool provides four key contributions: (1) upstream alignment with VeRL ensuring compatibility and simplified maintenance, (2) unified tool management via standardized APIs supporting diverse modalities including code execution, search, SQL databases, and vision processing, (3) asynchronous rollout execution achieving near 2times speedup by eliminating synchronization bottlenecks, and (4) comprehensive evaluation demonstrating competitive performance across 6 ARLT domains. Our framework formalizes ARLT as multi-turn trajectories with multi-modal observation tokens (text/image/video), extending beyond single-turn RLVR paradigms. We train and evaluate models on mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web search, and software engineering tasks, achieving results comparable to specialized systems while providing unified training infrastructure. The modular plugin architecture enables rapid tool integration requiring only lightweight Python definitions, significantly reducing development overhead and providing a scalable foundation for tool-augmented RL research. Our code is open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.
PDF574September 3, 2025