ChatPaper.aiChatPaper

大規模言語モデルのためのエージェンシック推論

Agentic Reasoning for Large Language Models

January 18, 2026
著者: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI

要旨

推論は、推測、問題解決、意思決定の基盤となる基本的な認知プロセスである。大規模言語モデル(LLM)は閉鎖的な環境では強力な推論能力を示すが、オープンエンドで動的な環境では苦戦する。エージェント的推論は、LLMを継続的な相互作用を通じて計画、行動、学習を行う自律エージェントとして再定義することで、パラダイムシフトを起こしている。本サーベイでは、エージェント的推論を3つの相補的な次元に沿って体系化する。第一に、環境の動態を3層で特徴付ける:基礎的エージェント的推論(安定環境における計画、ツール利用、探索を含む単一エージェントの核心能力の確立)、自己進化的エージェント的推論(フィードバック、記憶、適応を通じてエージェントが能力を洗練するプロセスの研究)、集団的多エージェント推論(調整、知識共有、共通目標を含む協調設定へ知能を拡張する)。これらの層全体において、構造化オーケストレーションによるテスト時相互作用を拡張する文脈内推論と、強化学習及び教師ありファインチューニングによる行動最適化を行う学習後推論を区別する。さらに、科学、ロボティクス、医療、自律的研究、数学などの実世界応用とベンチマークにおける代表的なエージェント的推論フレームワークを概観する。本サーベイはエージェント的推論手法を思考と行動を架橋する統一ロードマップへ統合し、パーソナライゼーション、長期相互作用、世界モデリング、スケーラブルな多エージェント訓練、実世界展開のためのガバナンスを含む未解決課題と将来方向を提示する。
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.
PDF1253January 23, 2026