VerlTool: К целостному агентному обучению с подкреплением с использованием инструментов
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
September 1, 2025
Авторы: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало успехи в улучшении способностей языковых моделей к рассуждениям, но остается ограниченным одношаговыми взаимодействиями без интеграции инструментов. Хотя недавно появились подходы к агентному обучению с подкреплением с использованием инструментов (ARLT), направленные на решение задач с многошаговыми взаимодействиями, существующие работы разрабатывают специализированные кодовые базы, которые страдают от фрагментации, узких мест синхронного выполнения и ограниченной расширяемости между доменами. Эти недостатки препятствуют широкому внедрению сообществом и инновациям в алгоритмах. Мы представляем VerlTool — унифицированный и модульный фреймворк, который устраняет эти ограничения благодаря систематическим принципам проектирования. VerlTool предлагает четыре ключевых преимущества: (1) совместимость с VeRL на уровне архитектуры, обеспечивающую упрощенное сопровождение, (2) унифицированное управление инструментами через стандартизированные API, поддерживающие различные модальности, включая выполнение кода, поиск, SQL-базы данных и обработку изображений, (3) асинхронное выполнение, достигающее почти двукратного ускорения за счет устранения узких мест синхронизации, и (4) всестороннюю оценку, демонстрирующую конкурентоспособную производительность в 6 доменах ARLT. Наш фреймворк формализует ARLT как многошаговые траектории с мультимодальными токенами наблюдения (текст/изображение/видео), выходя за рамки одношаговых парадигм RLVR. Мы обучаем и оцениваем модели на задачах математического рассуждения, вопросно-ответных систем, генерации SQL, визуального рассуждения, веб-поиска и разработки программного обеспечения, достигая результатов, сопоставимых со специализированными системами, при этом предоставляя унифицированную инфраструктуру обучения. Модульная архитектура плагинов позволяет быстро интегрировать инструменты, требуя лишь минимальных определений на Python, что значительно снижает затраты на разработку и обеспечивает масштабируемую основу для исследований в области обучения с подкреплением с использованием инструментов. Наш код доступен по адресу https://github.com/TIGER-AI-Lab/verl-tool.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated
success in enhancing LLM reasoning capabilities, but remains limited to
single-turn interactions without tool integration. While recent Agentic
Reinforcement Learning with Tool use (ARLT) approaches have emerged to address
multi-turn tool interactions, existing works develop task-specific codebases
that suffer from fragmentation, synchronous execution bottlenecks, and limited
extensibility across domains. These inefficiencies hinder broader community
adoption and algorithmic innovation. We introduce VerlTool, a unified and
modular framework that addresses these limitations through systematic design
principles. VerlTool provides four key contributions: (1) upstream alignment
with VeRL ensuring compatibility and simplified maintenance, (2) unified tool
management via standardized APIs supporting diverse modalities including code
execution, search, SQL databases, and vision processing, (3) asynchronous
rollout execution achieving near 2times speedup by eliminating
synchronization bottlenecks, and (4) comprehensive evaluation demonstrating
competitive performance across 6 ARLT domains. Our framework formalizes ARLT as
multi-turn trajectories with multi-modal observation tokens (text/image/video),
extending beyond single-turn RLVR paradigms. We train and evaluate models on
mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web
search, and software engineering tasks, achieving results comparable to
specialized systems while providing unified training infrastructure. The
modular plugin architecture enables rapid tool integration requiring only
lightweight Python definitions, significantly reducing development overhead and
providing a scalable foundation for tool-augmented RL research. Our code is
open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.