Von der Argumentation zur Handlungsfähigkeit: Kredit-Zurechnung im Reinforcement Learning für große Sprachmodelle

Zusammenfassung

Reinforcement Learning (RL) für große Sprachmodelle (LLMs) stützt sich zunehmend auf spärliche, ergebnisbezogene Belohnungen – doch die Bestimmung, welche Aktionen innerhalb einer langen Trajektorie das Ergebnis verursacht haben, bleibt schwierig. Dieses Credit-Assignment (CA)-Problem zeigt sich in zwei Bereichen: Reasoning-RL, bei dem die Zuordnung von Verdienst (Credit) über Tokens und Schritte innerhalb einer einzelnen Chain-of-Thought-Generierung (500–30.000+ Tokens) verteilt werden muss; und agentenbasiertes RL, bei dem mehrstufige Interaktionen mit der Umgebung stochastische Übergänge, teilweise Beobachtbarkeit und Zeithorizonte von 100+ Schritten (100.000–1 Mio. Tokens) einführen, was episodenbasierte Credit-Zuordnung zunehmend uninformativ macht. Wir untersuchen 47 CA-Methoden (41 Kernmethoden, 6 ergänzende Enabler), die zwischen 2024 und Anfang 2026 veröffentlicht wurden, und ordnen sie in einer zweidimensionalen Taxonomie nach Zuordnungsgranularität (Token, Segment, Schritt, Turn, Multi-Agent) und Methodik (Monte Carlo, Temporal Difference, modellbasiert, spieltheoretisch, informationstheoretisch). Über die Übersichtsarbeit hinaus tragen wir drei wiederverwendbare Ressourcen bei: (1) einen strukturierten, maschinenlesbaren Artikelkatalog mit Taxonomielabels, Baseline-Familien und Evidenzniveaus; (2) eine Checkliste für die Berichterstattung in künftigen CA-Arbeiten, die anhand der gesichteten Literatur validiert wurde, um systematische methodische Lücken zu identifizieren; und (3) eine Benchmark-Protokollspezifikation mit Aufgabenfamilien, Metadatenanforderungen und kontrollierten Bifurkationsaufgaben, ergänzt durch einen Entscheidungsbaum zur Methodenauswahl. Unsere Synthese legt nahe, dass der Wandel von Reasoning- zu agentenbasiertem RL die Credit-Assignment-Landschaft verkompliziert und umgestaltet: Reasoning-CA konsolidiert sich um Prozess-Belohnungsmodelle und kritikfreie Gruppenvergleiche, während agentenbasiertes CA genuinely neue Ansätze vorantreibt – nachträgliche kontrafaktische Analysen, privilegierte asymmetrische Kritiker und Turn-basierte MDP-Reformulierungen –, die in Reasoning-RL kein direktes Vorbild haben.

English

Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.

Von der Argumentation zur Handlungsfähigkeit: Kredit-Zurechnung im Reinforcement Learning für große Sprachmodelle

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Zusammenfassung

Support