Du Raisonnement à l’Agentivité : Attribution du Crédit dans l’Apprentissage par Renforcement pour les Grands Modèles de Langage

Résumé

L'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM) repose de plus en plus sur des récompenses éparses et basées sur le résultat – pourtant, déterminer quelles actions au sein d'une longue trajectoire ont causé le résultat reste difficile. Ce problème d'attribution de crédit (CA) se manifeste dans deux régimes : le RL de raisonnement, où le crédit doit être distribué entre les tokens et les étapes d'une seule génération de chaîne de pensée (500 à 30 000+ tokens) ; et le RL agentique, où l'interaction multi-tours avec l'environnement introduit des transitions stochastiques, une observabilité partielle et des horizons de 100+ tours (100 000 à 1 million de tokens), rendant le crédit au niveau de l'épisode de moins en moins informatif. Nous passons en revue 47 méthodes de CA (41 principales, 6 facilitateurs adjacents) publiées entre 2024 et début 2026, en les organisant selon une taxonomie bidimensionnelle basée sur la granularité de l'attribution (token, segment, étape, tour, multi-agent) et la méthodologie (Monte Carlo, différence temporelle, basée sur un modèle, théorie des jeux, théorie de l'information). Au-delà de l'étude elle-même, nous contribuons par trois ressources réutilisables : (1) un inventaire structuré et machine-readable des articles avec des labels taxonomiques, des familles de base de référence et des niveaux de preuve ; (2) une liste de contrôle pour la publication future d'articles sur le CA, validée par rapport à la littérature examinée pour identifier les lacunes méthodologiques systématiques ; et (3) une spécification de protocole de benchmark avec des familles de tâches, des exigences de métadonnées et des tâches de bifurcation contrôlée, accompagnée d'un arbre de décision pour la sélection des méthodes. Notre synthèse suggère que le passage du RL de raisonnement au RL agentique complète et remodelle le paysage de l'attribution de crédit : le CA pour le raisonnement arrive à maturité autour des modèles de récompense de processus et de la comparaison de groupe sans critique, tandis que le CA agentique stimule des approches véritablement nouvelles – l'analyse contrefactuelle a posteriori, les critiques asymétriques privilégiées et les reformulations MDP au niveau du tour – qui n'ont pas de précédent direct dans le RL de raisonnement.

English

Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.

Du Raisonnement à l’Agentivité : Attribution du Crédit dans l’Apprentissage par Renforcement pour les Grands Modèles de Langage

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Résumé

Support