Razonamiento Agéntico para Modelos de Lenguaje Grandes
Agentic Reasoning for Large Language Models
January 18, 2026
Autores: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI
Resumen
El razonamiento es un proceso cognitivo fundamental que subyace a la inferencia, la resolución de problemas y la toma de decisiones. Si bien los modelos de lenguaje grandes (LLMs) demuestran capacidades de razonamiento sólidas en entornos de mundo cerrado, tienen dificultades en entornos abiertos y dinámicos. El razonamiento agéntico marca un cambio de paradigma al reformular los LLMs como agentes autónomos que planifican, actúan y aprenden mediante la interacción continua. En este estudio, organizamos el razonamiento agéntico a lo largo de tres dimensiones complementarias. Primero, caracterizamos la dinámica ambiental a través de tres capas: el razonamiento agéntico fundamental, que establece las capacidades centrales de un solo agente, incluyendo la planificación, el uso de herramientas y la búsqueda en entornos estables; el razonamiento agéntico de auto-evolución, que estudia cómo los agentes refinan estas capacidades mediante retroalimentación, memoria y adaptación; y el razonamiento colectivo multiagente, que extiende la inteligencia a entornos colaborativos que implican coordinación, intercambio de conocimientos y objetivos compartidos. A lo largo de estas capas, distinguimos el razonamiento en contexto, que escala la interacción en tiempo de prueba mediante una orquestación estructurada, del razonamiento posterior al entrenamiento, que optimiza los comportamientos mediante el aprendizaje por refuerzo y el ajuste fino supervisado. Además, revisamos marcos de razonamiento agéntico representativos en aplicaciones y benchmarks del mundo real, incluyendo ciencia, robótica, atención sanitaria, investigación autónoma y matemáticas. Este estudio sintetiza los métodos de razonamiento agéntico en una hoja de ruta unificada que tiende un puente entre el pensamiento y la acción, y esboza desafíos abiertos y direcciones futuras, incluyendo la personalización, la interacción de largo horizonte, el modelado del mundo, el entrenamiento escalable de multiagentes y la gobernanza para el despliegue en el mundo real.
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.