ChatPaper.aiChatPaper

От рассуждений к агентности: распределение заслуг в обучении с подкреплением для больших языковых моделей

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

April 13, 2026
Авторы: Chenchen Zhang
cs.AI

Аннотация

Обучение с подкреплением (ОП) для больших языковых моделей (БЯМ) всё чаще опирается на разреженные, итоговые вознаграждения — однако определение того, какие именно действия в длинной траектории привели к итогу, остаётся сложной задачей. Проблема распределения заслуг (РЗ) проявляется в двух режимах: *рассуждающее ОП*, где заслуги должны быть распределены между токенами и шагами в рамках единой цепочки рассуждений (500–30 000+ токенов); и *агентное ОП*, где многошаговое взаимодействие со средой вводит стохастические переходы, частичную наблюдаемость и горизонты планирования в 100+ шагов (100 000–1 млн токенов), что делает эпизодическое распределение заслуг всё менее информативным. Мы проводим обзор 47 методов РЗ (41 основной, 6 смежных катализаторов), опубликованных в период с 2024 по начало 2026 года, систематизируя их в двумерной таксономии по гранулярности распределения (токен, сегмент, шаг, ход, мультиагентность) и методологии (Монте-Карло, временные разницы, модельно-ориентированные, теоретико-игровые, информационно-теоретические). Помимо самого обзора, мы вносим три воспроизводимых ресурса: (1) структурированный, машиночитаемый каталог статей с таксономическими метками, семействами базовых методов и уровнями доказательности; (2) контрольный список для отчетности в будущих работах по РЗ, валидированный на основе рассмотренной литературы для выявления систематических методологических пробелов; и (3) спецификацию протокола бенчмаркинга с семействами задач, требованиями к метаданным и контролируемыми задачами на бифуркацию, дополненную деревом решений для выбора метода. Наш анализ позволяет предположить, что переход от рассуждающего к агентному ОП усложняет и преобразует ландшафт распределения заслуг: методы РЗ для рассуждений созревают вокруг моделей вознаграждения за процесс и безкритикового группового сравнения, в то время как агентное РЗ стимулирует появление genuinely новых подходов — ретроспективного контрфактического анализа, привилегированных асимметричных критиков и преобразований в марковский процесс принятия решений на уровне хода, — которые не имеют прямых прецедентов в ОП для рассуждений.
English
Reinforcement learning (RL) for large language models (LLMs) increasingly relies on sparse, outcome-level rewards -- yet determining which actions within a long trajectory caused the outcome remains difficult. This credit assignment (CA) problem manifests in two regimes: reasoning RL, where credit must be distributed across tokens and steps within a single chain-of-thought generation (500--30K+ tokens); and agentic RL, where multi-turn environment interaction introduces stochastic transitions, partial observability, and horizons of 100+ turns (100K--1M tokens), making episode-level credit increasingly uninformative. We survey 47 CA methods (41 core, 6 adjacent enablers) published between 2024 and early 2026, organizing them in a two-dimensional taxonomy by assignment granularity (token, segment, step, turn, multi-agent) and methodology (Monte Carlo, temporal difference, model-based, game-theoretic, information-theoretic). Beyond the survey itself, we contribute three reusable resources: (1) a structured, machine-readable paper inventory with taxonomy labels, baseline families, and evidence levels; (2) a reporting checklist for future CA papers, validated against the reviewed literature to identify systematic methodological gaps; and (3) a benchmark protocol specification with task families, metadata requirements, and controlled bifurcation tasks, accompanied by a method selection decision tree. Our synthesis suggests that the shift from reasoning to agentic RL complicates and reshapes the credit assignment landscape: reasoning CA is maturing around process reward models and critic-free group comparison, while agentic CA is driving genuinely new approaches -- hindsight counterfactual analysis, privileged asymmetric critics, and turn-level MDP reformulations -- that have no direct precedent in reasoning RL.
PDF91April 15, 2026