ChatPaper.aiChatPaper

Razonamiento Agéntico e Integración de Herramientas para LLMs mediante Aprendizaje por Refuerzo

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

April 28, 2025
Autores: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento complejo, pero siguen siendo fundamentalmente limitados por su dependencia de conocimiento interno estático y razonamiento basado únicamente en texto. La resolución de problemas del mundo real a menudo requiere razonamiento dinámico y de múltiples pasos, toma de decisiones adaptativa y la capacidad de interactuar con herramientas y entornos externos. En este trabajo, presentamos ARTIST (Razonamiento Agéntico e Integración de Herramientas en Transformadores Automejorables), un marco unificado que acopla estrechamente el razonamiento agéntico, el aprendizaje por refuerzo y la integración de herramientas para LLMs. ARTIST permite que los modelos decidan de manera autónoma cuándo, cómo y qué herramientas invocar dentro de cadenas de razonamiento de múltiples turnos, aprovechando el aprendizaje por refuerzo basado en resultados para aprender estrategias robustas para el uso de herramientas y la interacción con el entorno, sin requerir supervisión a nivel de paso. Experimentos extensos en razonamiento matemático y benchmarks de llamadas a funciones de múltiples turnos muestran que ARTIST supera consistentemente los modelos de referencia más avanzados, con una mejora absoluta de hasta el 22% sobre los modelos base y ganancias significativas en las tareas más desafiantes. Estudios detallados y análisis de métricas revelan que el entrenamiento agéntico con aprendizaje por refuerzo conduce a un razonamiento más profundo, un uso más efectivo de herramientas y soluciones de mayor calidad. Nuestros resultados establecen el aprendizaje por refuerzo agéntico con integración de herramientas como una nueva y poderosa frontera para la resolución de problemas robusta, interpretable y generalizable en LLMs.
English
Large language models (LLMs) have achieved remarkable progress in complex reasoning tasks, yet they remain fundamentally limited by their reliance on static internal knowledge and text-only reasoning. Real-world problem solving often demands dynamic, multi-step reasoning, adaptive decision making, and the ability to interact with external tools and environments. In this work, we introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving Transformers), a unified framework that tightly couples agentic reasoning, reinforcement learning, and tool integration for LLMs. ARTIST enables models to autonomously decide when, how, and which tools to invoke within multi-turn reasoning chains, leveraging outcome-based RL to learn robust strategies for tool use and environment interaction without requiring step-level supervision. Extensive experiments on mathematical reasoning and multi-turn function calling benchmarks show that ARTIST consistently outperforms state-of-the-art baselines, with up to 22% absolute improvement over base models and strong gains on the most challenging tasks. Detailed studies and metric analyses reveal that agentic RL training leads to deeper reasoning, more effective tool use, and higher-quality solutions. Our results establish agentic RL with tool integration as a powerful new frontier for robust, interpretable, and generalizable problem-solving in LLMs.

Summary

AI-Generated Summary

PDF122May 6, 2025