Raciocínio Agente e Integração de Ferramentas para LLMs via Aprendizado por Reforço
Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning
April 28, 2025
Autores: Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) alcançaram progressos notáveis em tarefas de raciocínio complexo, mas permanecem fundamentalmente limitados por sua dependência de conhecimento interno estático e raciocínio baseado apenas em texto. A resolução de problemas do mundo real frequentemente exige raciocínio dinâmico e em múltiplas etapas, tomada de decisão adaptativa e a capacidade de interagir com ferramentas e ambientes externos. Neste trabalho, apresentamos ARTIST (Raciocínio Agêntico e Integração de Ferramentas em Transformers Autoaprimoráveis), um framework unificado que integra de forma estreita raciocínio agêntico, aprendizado por reforço e integração de ferramentas para LLMs. O ARTIST permite que os modelos decidam de forma autônoma quando, como e quais ferramentas invocar em cadeias de raciocínio de múltiplos turnos, aproveitando o aprendizado por reforço baseado em resultados para aprender estratégias robustas de uso de ferramentas e interação com o ambiente, sem exigir supervisão em nível de etapa. Experimentos extensivos em benchmarks de raciocínio matemático e chamadas de função de múltiplos turnos mostram que o ARTIST supera consistentemente os modelos de referência mais avançados, com uma melhoria absoluta de até 22% em relação aos modelos base e ganhos significativos nas tarefas mais desafiadoras. Estudos detalhados e análises de métricas revelam que o treinamento agêntico com aprendizado por reforço leva a um raciocínio mais profundo, uso mais eficaz de ferramentas e soluções de maior qualidade. Nossos resultados estabelecem o aprendizado por reforço agêntico com integração de ferramentas como uma nova e poderosa fronteira para a resolução de problemas robusta, interpretável e generalizável em LLMs.
English
Large language models (LLMs) have achieved remarkable progress in complex
reasoning tasks, yet they remain fundamentally limited by their reliance on
static internal knowledge and text-only reasoning. Real-world problem solving
often demands dynamic, multi-step reasoning, adaptive decision making, and the
ability to interact with external tools and environments. In this work, we
introduce ARTIST (Agentic Reasoning and Tool Integration in Self-improving
Transformers), a unified framework that tightly couples agentic reasoning,
reinforcement learning, and tool integration for LLMs. ARTIST enables models to
autonomously decide when, how, and which tools to invoke within multi-turn
reasoning chains, leveraging outcome-based RL to learn robust strategies for
tool use and environment interaction without requiring step-level supervision.
Extensive experiments on mathematical reasoning and multi-turn function calling
benchmarks show that ARTIST consistently outperforms state-of-the-art
baselines, with up to 22% absolute improvement over base models and strong
gains on the most challenging tasks. Detailed studies and metric analyses
reveal that agentic RL training leads to deeper reasoning, more effective tool
use, and higher-quality solutions. Our results establish agentic RL with tool
integration as a powerful new frontier for robust, interpretable, and
generalizable problem-solving in LLMs.