ChatPaper.aiChatPaper

Агентное мышление для больших языковых моделей

Agentic Reasoning for Large Language Models

January 18, 2026
Авторы: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI

Аннотация

Рассуждение является фундаментальным когнитивным процессом, лежащим в основе логического вывода, решения проблем и принятия решений. Хотя большие языковые модели (БЯМ) демонстрируют мощные способности к рассуждению в закрытых средах, они испытывают трудности в открытых и динамических условиях. Агентное рассуждение знаменует собой смену парадигмы, переосмысливая БЯМ как автономных агентов, которые планируют, действуют и обучаются посредством непрерывного взаимодействия. В данном обзоре мы систематизируем агентное рассуждение по трем взаимодополняющим измерениям. Во-первых, мы характеризуем динамику среды через три уровня: базовое агентное рассуждение, которое формирует ключевые возможности одиночного агента, включая планирование, использование инструментов и поиск в стабильных средах; саморазвивающееся агентное рассуждение, изучающее, как агенты совершенствуют эти способности с помощью обратной связи, памяти и адаптации; и коллективное мультиагентное рассуждение, которое расширяет интеллект на сценарии коллаборации, включающие координацию, обмен знаниями и общие цели. На всех этих уровнях мы различаем рассуждение в контексте, которое масштабирует взаимодействие во время тестирования за счет структурированной оркестровки, и рассуждение после обучения, которое оптимизирует поведение с помощью обучения с подкреплением и контролируемого тонкого настроя. Мы также рассматриваем репрезентативные фреймворки агентного рассуждения в контексте реальных приложений и бенчмарков, включая науку, робототехнику, здравоохранение, автономные исследования и математику. Этот обзор синтезирует методы агентного рассуждения в единую дорожную карту, соединяющую мысль и действие, и очерчивает открытые проблемы и будущие направления, включая персонализацию, долгосрочное взаимодействие, моделирование мира, масштабируемое мультиагентное обучение и управление для развертывания в реальном мире.
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.
PDF1253January 23, 2026