ChatPaper.aiChatPaper

Agentisches Denken und Werkzeugintegration für LLMs durch Reinforcement Learning

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

April 28, 2025
Autoren: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei komplexen Denkaufgaben erzielt, bleiben jedoch grundsätzlich durch ihre Abhängigkeit von statischem internem Wissen und textbasiertem Denken eingeschränkt. Die Lösung realer Probleme erfordert oft dynamisches, mehrstufiges Denken, adaptive Entscheidungsfindung und die Fähigkeit, mit externen Werkzeugen und Umgebungen zu interagieren. In dieser Arbeit stellen wir ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers) vor, ein einheitliches Framework, das agentenbasiertes Denken, Reinforcement Learning und die Integration von Werkzeugen für LLMs eng miteinander verknüpft. ARTIST ermöglicht es Modellen, autonom zu entscheiden, wann, wie und welche Werkzeuge in mehrstufigen Denkketten aufgerufen werden sollen, und nutzt ergebnisbasiertes RL, um robuste Strategien für die Werkzeugnutzung und Umgebungsinteraktion zu erlernen, ohne schrittweise Überwachung zu benötigen. Umfangreiche Experimente zu mathematischem Denken und mehrstufigen Funktionsaufruf-Benchmarks zeigen, dass ARTIST durchweg state-of-the-art Baselines übertrifft, mit einer absoluten Verbesserung von bis zu 22 % gegenüber Basismodellen und deutlichen Gewinnen bei den anspruchsvollsten Aufgaben. Detaillierte Studien und Metrikanalysen zeigen, dass agentenbasiertes RL-Training zu tieferem Denken, effektiverer Werkzeugnutzung und qualitativ hochwertigeren Lösungen führt. Unsere Ergebnisse etablieren agentenbasiertes RL mit Werkzeugintegration als eine leistungsstarke neue Grenze für robuste, interpretierbare und generalisierbare Problemlösung in LLMs.
English
Large language models (LLMs) have achieved remarkable progress in complex reasoning tasks, yet they remain fundamentally limited by their reliance on static internal knowledge and text-only reasoning. Real-world problem solving often demands dynamic, multi-step reasoning, adaptive decision making, and the ability to interact with external tools and environments. In this work, we introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), a unified framework that tightly couples agentic reasoning, reinforcement learning, and tool integration for LLMs. ARTIST enables models to autonomously decide when, how, and which tools to invoke within multi-turn reasoning chains, leveraging outcome-based RL to learn robust strategies for tool use and environment interaction without requiring step-level supervision. Extensive experiments on mathematical reasoning and multi-turn function calling benchmarks show that ARTIST consistently outperforms state-of-the-art baselines, with up to 22% absolute improvement over base models and strong gains on the most challenging tasks. Detailed studies and metric analyses reveal that agentic RL training leads to deeper reasoning, more effective tool use, and higher-quality solutions. Our results establish agentic RL with tool integration as a powerful new frontier for robust, interpretable, and generalizable problem-solving in LLMs.

Summary

AI-Generated Summary

PDF122May 6, 2025