Агентное рассуждение и интеграция инструментов для больших языковых моделей с использованием обучения с подкреплением
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
April 28, 2025
Авторы: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в выполнении сложных задач на рассуждение, однако их возможности остаются принципиально ограниченными из-за зависимости от статического внутреннего знания и текстового рассуждения. Решение реальных задач часто требует динамического, многошагового рассуждения, адаптивного принятия решений и способности взаимодействовать с внешними инструментами и окружением. В данной работе мы представляем ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers) — унифицированную структуру, которая тесно связывает агентное рассуждение, обучение с подкреплением и интеграцию инструментов для LLM. ARTIST позволяет моделям автономно решать, когда, как и какие инструменты использовать в рамках многошаговых цепочек рассуждений, применяя обучение с подкреплением на основе результатов для изучения устойчивых стратегий использования инструментов и взаимодействия с окружением без необходимости пошагового контроля. Масштабные эксперименты на задачах математического рассуждения и многошагового вызова функций демонстрируют, что ARTIST стабильно превосходит современные базовые модели, достигая абсолютного улучшения до 22% по сравнению с базовыми моделями и значительного прогресса на наиболее сложных задачах. Детальные исследования и анализ метрик показывают, что обучение с агентным обучением с подкреплением приводит к более глубокому рассуждению, эффективному использованию инструментов и созданию решений более высокого качества. Наши результаты подтверждают, что агентное обучение с подкреплением в сочетании с интеграцией инструментов открывает новое мощное направление для создания устойчивых, интерпретируемых и обобщаемых решений в LLM.
English
Large language models (LLMs) have achieved remarkable progress in complex
reasoning tasks, yet they remain fundamentally limited by their reliance on
static internal knowledge and text-only reasoning. Real-world problem solving
often demands dynamic, multi-step reasoning, adaptive decision making, and the
ability to interact with external tools and environments. In this work, we
introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving
Transformers), a unified framework that tightly couples agentic reasoning,
reinforcement learning, and tool integration for LLMs. ARTIST enables models to
autonomously decide when, how, and which tools to invoke within multi-turn
reasoning chains, leveraging outcome-based RL to learn robust strategies for
tool use and environment interaction without requiring step-level supervision.
Extensive experiments on mathematical reasoning and multi-turn function calling
benchmarks show that ARTIST consistently outperforms state-of-the-art
baselines, with up to 22% absolute improvement over base models and strong
gains on the most challenging tasks. Detailed studies and metric analyses
reveal that agentic RL training leads to deeper reasoning, more effective tool
use, and higher-quality solutions. Our results establish agentic RL with tool
integration as a powerful new frontier for robust, interpretable, and
generalizable problem-solving in LLMs.Summary
AI-Generated Summary