ChatPaper.aiChatPaper

Dal Ragionamento all’Agenticità: Assegnazione del Credito nell’Apprendimento per Rinforzo per i Grandi Modelli Linguistici

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

April 13, 2026
Autori: Chenchen Zhang
cs.AI

Abstract

L'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM) fa sempre più affidamento su ricompense sparse a livello di risultato, ma determinare quali azioni all'interno di una lunga traiettoria abbiano causato il risultato rimane difficile. Questo problema di assegnazione del credito (CA) si manifesta in due regimi: il RL ragionativo, in cui il credito deve essere distribuito tra token e passaggi all'interno di una singola generazione a catena di pensiero (500-30K+ token); e il RL agenziale, in cui l'interazione multi-turno con l'ambiente introduce transizioni stocastiche, osservabilità parziale e orizzonti di 100+ turni (100K-1M token), rendendo il credito a livello di episodio sempre meno informativo. Esaminiamo 47 metodi di CA (41 principali, 6 abilitatori adiacenti) pubblicati tra il 2024 e l'inizio del 2026, organizzandoli in una tassonomia bidimensionale per granularità di assegnazione (token, segmento, passaggio, turno, multi-agente) e metodologia (Monte Carlo, differenza temporale, basato su modello, teoria dei giochi, teoria dell'informazione). Oltre al survey stesso, contribuiamo con tre risorse riutilizzabili: (1) un inventario strutturato e machine-readable degli articoli con etichette tassonomiche, famiglie di baseline e livelli di evidenza; (2) una checklist di reporting per i futuri articoli su CA, validata sulla letteratura revisionata per identificare lacune metodologiche sistematiche; e (3) una specifica di protocollo di benchmark con famiglie di task, requisiti di metadati e task di biforcazione controllata, accompagnata da un albero decisionale per la selezione del metodo. La nostra sintesi suggerisce che il passaggio dal RL ragionativo a quello agenziale complica e rimodella il panorama dell'assegnazione del credito: il CA per il ragionamento si sta consolidando attorno a modelli di ricompensa del processo e al confronto di gruppo senza critico, mentre il CA agenziale sta guidando approcci genuinamente nuovi – analisi controfattuale hindsight, critici asimmetrici privilegiati e riformulazioni MDP a livello di turno – che non hanno precedenti diretti nel RL ragionativo.
English
Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.
PDF132April 21, 2026