Как течёт рассуждение? Прослеживание информационного потока, индуцированного вниманием, для целевого обучения с подкреплением в больших языковых моделях.

Аннотация

Распределение кредита на уровне токенов остается ключевым препятствием для обучения с подкреплением (RL) в больших языковых моделях (LLM), где методы RL обычно обрабатывают все токены одинаково, не различая решающие шаги рассуждения, стандартное форматирование или плавные заполнители. Недавние попытки используют внутренние сигналы модели для назначения более детального кредита, но это часто точечные эвристики, игнорирующие глобальную структуру распространения информации. Мы предлагаем FlowTracer — фреймворк RL, который прослеживает нацеленный на ответ поток рассуждений на направленном ациклическом графе, индуцированном вниманием, где узлы соответствуют токенам, а пропускные способности ребер формируются из агрегированных весов внимания, и выводит кредит токенов из этой глобальной структуры. Пропускные способности ребер перевзвешиваются, чтобы сохранить только влияние, способное достичь области ответа, при этом обеспечивается локальное сохранение потока, так что промежуточные токены не теряют и не набирают эффективную массу из-за длины пути или нерелевантных ветвей. На этом графе FlowTracer извлекает магистраль информационного потока, соединяющую вопрос с ответом, и оценивает токены по пропускной способности потока, выявляя узлы с высоким влиянием и контрольные точки агрегации, опосредующие долгосрочные зависимости. Эти вычисленные значимости используются для формирования вознаграждений на уровне токенов, позволяя сигналам обучения точно фокусироваться на токенах, направляющих информацию к правильным ответам (или от них), и обеспечивая стабильные приросты производительности в широком спектре задач рассуждения.

English

Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.