ChatPaper.aiChatPaper

Van Redeneren naar Agentisch: Toekenning van Verdienste in Versterkingsleren voor Grote Taalmodellen

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

April 13, 2026
Auteurs: Chenchen Zhang
cs.AI

Samenvatting

Versterkend leren (RL) voor grote taalmmodellen (LLM's) maakt in toenemende mate gebruik van schaarse, uitkomstgerichte beloningen – maar het blijft moeilijk te bepalen welke acties binnen een lange trajectorie de uitkomst hebben veroorzaakt. Dit *credit assignment* (CA)-probleem doet zich voor in twee regimes: *reasoning RL*, waarbij de eer moet worden verdeeld over tokens en stappen binnen een enkele *chain-of-thought*-generatie (500–30K+ tokens); en *agentic RL*, waarbij multi-turn interactie met een omgeving stochastische transities, gedeeltelijke observeerbaarheid en horizons van 100+ beurten (100K–1M tokens) introduceert, waardoor episode-brede credit steeds minder informatief wordt. Wij inventariseren 47 CA-methoden (41 kernmethoden, 6 aanverwante enablers) gepubliceerd tussen 2024 en begin 2026, en ordenen deze in een tweedimensionale taxonomie op basis van toewijzingsgranulariteit (token, segment, stap, beurt, multi-agent) en methodologie (Monte Carlo, temporele differentie, modelgebaseerd, speltheoretisch, informatietheoretisch). Naast de survey zelf leveren wij drie herbruikbare bronnen aan: (1) een gestructureerde, machineleesbare paperinventaris met taxonomielabels, baseline-families en evidentieniveaus; (2) een rapportagechecklist voor toekomstige CA-papers, gevalideerd tegen de geraadpleegde literatuur om systematische methodologische hiaten te identificeren; en (3) een benchmarkprotocolspecificatie met taakfamilies, metadatavereisten en gecontroleerde bifurcatietaken, vergezeld van een beslissingsboom voor methodeselectie. Onze synthese suggereert dat de verschuiving van reasoning naar agentic RL het credit assignment-landschap compliceert en hervormt: reasoning CA rijpt rond *process reward models* en critic-vrije groepsvergelijking, terwijl agentic CA echt nieuwe benaderingen voortbrengt – *hindsight counterfactual analysis*, geprivilegieerde asymmetrische critics, en beurt-niveau MDP-herformuleringen – die geen directe precedent hebben in reasoning RL.
English
Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.
PDF132April 21, 2026