Raisonnement agentique pour les grands modèles de langage
Agentic Reasoning for Large Language Models
January 18, 2026
papers.authors: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI
papers.abstract
Le raisonnement est un processus cognitif fondamental sous-jacent à l'inférence, à la résolution de problèmes et à la prise de décision. Si les grands modèles de langage (LLM) démontrent de solides capacités de raisonnement dans des environnements fermés, ils rencontrent des difficultés dans des environnements ouverts et dynamiques. Le raisonnement agentique marque un changement de paradigme en reconsidérant les LLM comme des agents autonomes qui planifient, agissent et apprennent par une interaction continue. Dans cette synthèse, nous organisons le raisonnement agentique selon trois dimensions complémentaires. Premièrement, nous caractérisons la dynamique environnementale à travers trois couches : le raisonnement agentique fondamental, qui établit les capacités centrales d'un agent unique incluant la planification, l'utilisation d'outils et la recherche dans des environnements stables ; le raisonnement agentique auto-évolutif, qui étudie comment les agents améliorent ces capacités par le retour d'information, la mémoire et l'adaptation ; et le raisonnement collectif multi-agents, qui étend l'intelligence à des cadres collaboratifs impliquant la coordination, le partage des connaissances et des objectifs communs. À travers ces couches, nous distinguons le raisonnement en contexte, qui met à l'échelle l'interaction au moment du test par une orchestration structurée, du raisonnement post-entraînement, qui optimise les comportements via l'apprentissage par renforcement et le réglage fin supervisé. Nous passons également en revue les cadres de raisonnement agentique représentatifs à travers les applications et benchmarks du monde réel, incluant les sciences, la robotique, les soins de santé, la recherche autonome et les mathématiques. Cette synthèse intègre les méthodes de raisonnement agentique en une feuille de route unifiée faisant le pont entre la pensée et l'action, et esquisse les défis ouverts et les orientations futures, incluant la personnalisation, l'interaction à long terme, la modélisation du monde, l'entraînement multi-agents scalable et la gouvernance pour un déploiement réel.
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.