Do Raciocínio ao Agente: Atribuição de Crédito no Aprendizado por Reforço para Modelos de Linguagem de Grande Porte
From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models
April 13, 2026
Autores: Chenchen Zhang
cs.AI
Resumo
O aprendizado por reforço (RL) para grandes modelos de linguagem (LLMs) depende cada vez mais de recompensas esparsas e de nível de resultado – no entanto, determinar quais ações dentro de uma longa trajetória causaram o resultado permanece difícil. Este problema de atribuição de crédito (CA) manifesta-se em dois regimes: o RL de raciocínio, onde o crédito deve ser distribuído por tokens e passos dentro de uma única geração de cadeia de pensamento (500–30K+ tokens); e o RL agentivo, onde a interação multi-turno com o ambiente introduz transições estocásticas, observabilidade parcial e horizontes de 100+ turnos (100K–1M tokens), tornando o crédito a nível de episódio cada vez menos informativo.
Levantamos 47 métodos de CA (41 principais, 6 facilitadores adjacentes) publicados entre 2024 e início de 2026, organizando-os numa taxonomia bidimensional por granularidade de atribuição (token, segmento, passo, turno, multi-agente) e metodologia (Monte Carlo, diferença temporal, baseado em modelo, teoria dos jogos, teoria da informação). Para além do levantamento em si, contribuímos com três recursos reutilizáveis: (1) um inventário estruturado e legível por máquina de artigos com etiquetas de taxonomia, famílias de baseline e níveis de evidência; (2) uma lista de verificação para relatórios de futuros artigos sobre CA, validada face à literatura revista para identificar lacunas metodológicas sistemáticas; e (3) uma especificação de protocolo de benchmark com famílias de tarefas, requisitos de metadados e tarefas de bifurcação controlada, acompanhada por uma árvore de decisão para seleção de métodos.
A nossa síntese sugere que a transição do RL de raciocínio para o agentivo complica e remodela o panorama da atribuição de crédito: a CA para raciocínio está a amadurecer em torno de modelos de recompensa de processo e comparação de grupo sem crítico, enquanto a CA agentiva está a impulsionar abordagens genuinamente novas – análise contrafactual com hindsight, críticos assimétricos privilegiados e reformulações de MDP a nível de turno – que não têm precedente direto no RL de raciocínio.
English
Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative.
We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree.
Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.