Agentisch Redeneren voor Grote Taalmodellen
Agentic Reasoning for Large Language Models
January 18, 2026
Auteurs: Tianxin Wei, Ting-Wei Li, Zhining Liu, Xuying Ning, Ze Yang, Jiaru Zou, Zhichen Zeng, Ruizhong Qiu, Xiao Lin, Dongqi Fu, Zihao Li, Mengting Ai, Duo Zhou, Wenxuan Bao, Yunzhe Li, Gaotang Li, Cheng Qian, Yu Wang, Xiangru Tang, Yin Xiao, Liri Fang, Hui Liu, Xianfeng Tang, Yuji Zhang, Chi Wang, Jiaxuan You, Heng Ji, Hanghang Tong, Jingrui He
cs.AI
Samenvatting
Redeneren is een fundamenteel cognitief proces dat ten grondslag ligt aan inferentie, probleemoplossing en besluitvorming. Hoewel grote taalmodellen (LLM's) sterke redeneervaardigheden demonstreren in gesloten omgevingen, hebben ze moeite in open-einde en dynamische situaties. Agent-gebaseerd redeneren markeert een paradigmaverschuiving door LLM's te herdefiniëren als autonome agents die plannen, handelen en leren door continue interactie. In dit overzicht organiseren we agent-gebaseerd redeneren langs drie complementaire dimensies. Ten eerste karakteriseren we omgevingsdynamiek via drie lagen: fundamenteel agent-gebaseerd redeneren, dat de kernvaardigheden van een enkele agent vaststelt, waaronder planning, gereedschapsgebruik en zoeken in stabiele omgevingen; zelf-evoluerend agent-gebaseerd redeneren, dat bestudeert hoe agents deze vaardigheden verfijnen via feedback, geheugen en aanpassing; en collectief multi-agent redeneren, dat intelligentie uitbreidt naar collaboratieve settings met coördinatie, kennisdeling en gedeelde doelen. Over deze lagen heen onderscheiden we in-context redeneren, dat interactie tijdens testtijd op schaal mogelijk maakt via gestructureerde orkestratie, van post-training redeneren, dat gedrag optimaliseert via reinforcement learning en supervised fine-tuning. We bespreken verder representatieve agent-gebaseerde redeneerframeworks in real-world toepassingen en benchmarks, waaronder wetenschap, robotica, gezondheidszorg, autonoom onderzoek en wiskunde. Dit overzicht synthetiseert agent-gebaseerde redeneermethoden tot een verenigde routekaart die denken en handelen verbindt, en schetst open uitdagingen en toekomstige richtingen, zoals personalisatie, interactie op lange termijn, wereldmodellering, schaalbare multi-agent training en governance voor implementatie in de praktijk.
English
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.