VerlTool: Auf dem Weg zu ganzheitlichem agentenbasiertem Reinforcement Learning mit Werkzeugnutzung
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
papers.authors: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat Erfolge bei der Verbesserung der Fähigkeiten von LLMs zur logischen Schlussfolgerung gezeigt, bleibt jedoch auf Einzelinteraktionen ohne Werkzeugintegration beschränkt. Während neuere Ansätze des Agentenbasierten Reinforcement Learning mit Werkzeugnutzung (ARLT) entwickelt wurden, um Mehrfachinteraktionen mit Werkzeugen zu ermöglichen, erstellen bestehende Arbeiten aufgabenbezogene Codebasen, die unter Fragmentierung, Engpässen bei der synchronen Ausführung und begrenzter Erweiterbarkeit über verschiedene Domänen hinweg leiden. Diese Ineffizienzen behindern eine breitere Akzeptanz in der Community und die Innovation von Algorithmen. Wir stellen VerlTool vor, ein einheitliches und modulares Framework, das diese Einschränkungen durch systematische Designprinzipien adressiert. VerlTool bietet vier wesentliche Beiträge: (1) Upstream-Ausrichtung mit VeRL, die Kompatibilität und vereinfachte Wartung gewährleistet, (2) einheitliche Werkzeugverwaltung über standardisierte APIs, die verschiedene Modalitäten wie Codeausführung, Suche, SQL-Datenbanken und Bildverarbeitung unterstützen, (3) asynchrone Rollout-Ausführung, die durch die Beseitigung von Synchronisationsengpässen eine nahezu 2-fache Beschleunigung erreicht, und (4) eine umfassende Bewertung, die wettbewerbsfähige Leistungen über 6 ARLT-Domänen hinweg demonstriert. Unser Framework formalisiert ARLT als Mehrfachinteraktionen mit multimodalen Beobachtungstoken (Text/Bild/Video), die über die Einzelinteraktionsparadigmen von RLVR hinausgehen. Wir trainieren und bewerten Modelle für mathematische Schlussfolgerungen, Wissensfragen, SQL-Generierung, visuelle Schlussfolgerungen, Websuche und Softwareentwicklungsaufgaben und erzielen Ergebnisse, die mit spezialisierten Systemen vergleichbar sind, während wir eine einheitliche Trainingsinfrastruktur bereitstellen. Die modulare Plugin-Architektur ermöglicht eine schnelle Integration von Werkzeugen, die nur leichte Python-Definitionen erfordern, was den Entwicklungsaufwand erheblich reduziert und eine skalierbare Grundlage für die Forschung zu werkzeuggestütztem RL bietet. Unser Code ist unter https://github.com/TIGER-AI-Lab/verl-tool quelloffen verfügbar.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.