ChatPaper.aiChatPaper

Raisonnement agentique et intégration d'outils pour les LLM via l'apprentissage par renforcement

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

April 28, 2025
Auteurs: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI

Résumé

Les grands modèles de langage (LLM) ont réalisé des progrès remarquables dans les tâches de raisonnement complexe, mais ils restent fondamentalement limités par leur dépendance à des connaissances internes statiques et à un raisonnement basé uniquement sur le texte. La résolution de problèmes dans le monde réel exige souvent un raisonnement dynamique et multi-étapes, une prise de décision adaptative, ainsi que la capacité d'interagir avec des outils et des environnements externes. Dans ce travail, nous présentons ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), un cadre unifié qui intègre étroitement le raisonnement agentique, l'apprentissage par renforcement et l'utilisation d'outils pour les LLM. ARTIST permet aux modèles de décider de manière autonome quand, comment et quels outils invoquer au sein de chaînes de raisonnement multi-tours, en exploitant l'apprentissage par renforcement basé sur les résultats pour apprendre des stratégies robustes d'utilisation d'outils et d'interaction avec l'environnement sans nécessiter de supervision au niveau des étapes. Des expériences approfondies sur des benchmarks de raisonnement mathématique et d'appel de fonctions multi-tours montrent qu'ARTIST surpasse systématiquement les modèles de référence les plus avancés, avec une amélioration absolue allant jusqu'à 22 % par rapport aux modèles de base et des gains significatifs sur les tâches les plus difficiles. Des études détaillées et des analyses métriques révèlent que l'entraînement par apprentissage par renforcement agentique conduit à un raisonnement plus profond, une utilisation plus efficace des outils et des solutions de meilleure qualité. Nos résultats établissent l'apprentissage par renforcement agentique avec intégration d'outils comme une nouvelle frontière puissante pour une résolution de problèmes robuste, interprétable et généralisable dans les LLM.
English
Large language models (LLMs) have achieved remarkable progress in complex reasoning tasks, yet they remain fundamentally limited by their reliance on static internal knowledge and text-only reasoning. Real-world problem solving often demands dynamic, multi-step reasoning, adaptive decision making, and the ability to interact with external tools and environments. In this work, we introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), a unified framework that tightly couples agentic reasoning, reinforcement learning, and tool integration for LLMs. ARTIST enables models to autonomously decide when, how, and which tools to invoke within multi-turn reasoning chains, leveraging outcome-based RL to learn robust strategies for tool use and environment interaction without requiring step-level supervision. Extensive experiments on mathematical reasoning and multi-turn function calling benchmarks show that ARTIST consistently outperforms state-of-the-art baselines, with up to 22% absolute improvement over base models and strong gains on the most challenging tasks. Detailed studies and metric analyses reveal that agentic RL training leads to deeper reasoning, more effective tool use, and higher-quality solutions. Our results establish agentic RL with tool integration as a powerful new frontier for robust, interpretable, and generalizable problem-solving in LLMs.

Summary

AI-Generated Summary

PDF122May 6, 2025