Agentisch redeneren en toolintegratie voor LLM's via reinforcement learning
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
April 28, 2025
Auteurs: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke vooruitgang geboekt in complexe redeneertaken, maar blijven fundamenteel beperkt door hun afhankelijkheid van statische interne kennis en tekstueel redeneren. Probleemoplossing in de echte wereld vereist vaak dynamisch, meerstaps redeneren, adaptieve besluitvorming en het vermogen om te interageren met externe tools en omgevingen. In dit werk introduceren we ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), een uniform raamwerk dat agentisch redeneren, reinforcement learning en toolintegratie nauw koppelt voor LLM's. ARTIST stelt modellen in staat om autonoom te beslissen wanneer, hoe en welke tools ze moeten inzetten binnen meerstaps redeneerketens, waarbij outcome-based RL wordt benut om robuuste strategieën te leren voor toolgebruik en omgevingsinteractie zonder stap-voor-stap supervisie. Uitgebreide experimenten op het gebied van wiskundig redeneren en meerstaps functieaanroepbenchmarks tonen aan dat ARTIST consistent beter presteert dan state-of-the-art baselines, met een absolute verbetering van tot 22% ten opzichte van basismodellen en sterke winsten op de meest uitdagende taken. Gedetailleerde studies en metrische analyses onthullen dat agentische RL-training leidt tot dieper redeneren, effectiever toolgebruik en hogere kwaliteit oplossingen. Onze resultaten vestigen agentische RL met toolintegratie als een krachtig nieuw front voor robuuste, interpreteerbare en generaliseerbare probleemoplossing in LLM's.
English
Large language models (LLMs) have achieved remarkable progress in complex
reasoning tasks, yet they remain fundamentally limited by their reliance on
static internal knowledge and text-only reasoning. Real-world problem solving
often demands dynamic, multi-step reasoning, adaptive decision making, and the
ability to interact with external tools and environments. In this work, we
introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving
Transformers), a unified framework that tightly couples agentic reasoning,
reinforcement learning, and tool integration for LLMs. ARTIST enables models to
autonomously decide when, how, and which tools to invoke within multi-turn
reasoning chains, leveraging outcome-based RL to learn robust strategies for
tool use and environment interaction without requiring step-level supervision.
Extensive experiments on mathematical reasoning and multi-turn function calling
benchmarks show that ARTIST consistently outperforms state-of-the-art
baselines, with up to 22% absolute improvement over base models and strong
gains on the most challenging tasks. Detailed studies and metric analyses
reveal that agentic RL training leads to deeper reasoning, more effective tool
use, and higher-quality solutions. Our results establish agentic RL with tool
integration as a powerful new frontier for robust, interpretable, and
generalizable problem-solving in LLMs.