Raciocínio Agente para Modelos de Linguagem de Grande Escala

Resumo

A raciocínio é um processo cognitivo fundamental que sustenta a inferência, a resolução de problemas e a tomada de decisões. Embora os Grandes Modelos de Linguagem (LLMs) demonstrem capacidades de raciocínio robustas em ambientes de mundo fechado, eles lutam em ambientes abertos e dinâmicos. O raciocínio agentivo representa uma mudança de paradigma ao reformular os LLMs como agentes autónomos que planeiam, agem e aprendem através da interação contínua. Nesta revisão, organizamos o raciocínio agentivo ao longo de três dimensões complementares. Primeiro, caracterizamos a dinâmica ambiental através de três camadas: o raciocínio agentivo fundamental, que estabelece capacidades centrais de agente único, incluindo planeamento, uso de ferramentas e busca em ambientes estáveis; o raciocínio agentivo de auto-evolução, que estuda como os agentes refinam essas capacidades através de *feedback*, memória e adaptação; e o raciocínio coletivo multiagente, que estende a inteligência para contextos colaborativos envolvendo coordenação, partilha de conhecimento e objetivos comuns. Através destas camadas, distinguimos o raciocínio em contexto, que dimensiona a interação no momento do teste através de orquestração estruturada, do raciocínio pós-treinamento, que otimiza comportamentos via aprendizagem por reforço e *fine-tuning* supervisionado. Revemos ainda estruturas representativas de raciocínio agentivo em aplicações e *benchmarks* do mundo real, incluindo ciência, robótica, saúde, pesquisa autónoma e matemática. Esta revisão sintetiza os métodos de raciocínio agentivo num roteiro unificado que liga o pensamento à ação, e delineia desafios em aberto e direções futuras, incluindo personalização, interação de longo horizonte, modelação do mundo, treino escalável de multiagentes e governança para implementação no mundo real.

English

Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.