대규모 언어 모델을 위한 행위적 추론
Agentic Reasoning for Large Language Models
January 18, 2026
저자: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI
초록
추론은 추론, 문제 해결, 의사 결정의 기초가 되는 핵심 인지 과정이다. 대규모 언어 모델(LLM)은 폐쇄적 환경에서는 강력한 추론 능력을 보이지만, 개방적이고 동적인 환경에서는 어려움을 겪는다. 에이전트 추론은 LLM을 지속적 상호작용을 통해 계획하고 행동하며 학습하는 자율적 에이전트로 재정의함으로써 패러다임 전환을 가져온다. 본 고찰에서는 에이전트 추론을 세 가지 상호 보완적 차원으로 체계화한다. 먼저, 환경 역동성을 세 가지 계층으로 구분한다: 안정된 환경에서 계획, 도구 사용, 탐색 등 핵심 단일 에이전트 능력을 확립하는 기초 에이전트 추론; 피드백, 기억, 적응을 통해 에이전트가 이러한 능력을 개선하는 방법을 연구하는 자기 진화 에이전트 추론; 조정, 지식 공유, 공동 목표를 포괄하는 협력적 환경으로 지능을 확장하는 집단적 다중 에이전트 추론. 이러한 계층 전반에 걸쳐, 구조화된 오케스트레이션을 통해 시험 시간 상호작용을 확장하는 맥락 내 추론과, 강화 학습 및 지도 미세 조정을 통해 행동을 최적화하는 사후 훈련 추론을 구분한다. 나아가 과학, 로봇공학, 의료, 자율 연구, 수학을 포함한 실제 응용 분야 및 벤치마크에서 대표적인 에이전트 추론 프레임워크를 검토한다. 본 고찰은 에이전트 추론 방법을 사고와 행동을 연결하는 통합 로드맵으로 종합하고, 개인화, 장기적 상호작용, 세계 모델링, 확장 가능한 다중 에이전트 훈련, 실제 배포를 위한 거버넌스를 포함한 개방형 과제와 미래 방향을 제시한다.
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.