¿Cómo fluye el razonamiento? Rastreando el flujo de información inducido por la atención para RL dirigido en LLMs

Resumen

La asignación de crédito a nivel de tokens sigue siendo un obstáculo clave para el aprendizaje por refuerzo (RL) en modelos de lenguaje de gran escala (LLMs), donde las recetas de RL típicamente tratan todos los tokens por igual, sin distinguir entre pasos de razonamiento decisivos, formato rutinario o relleno fluido. Intentos recientes aprovechan señales internas del modelo para asignar crédito más granular, pero a menudo son heurísticas puntuales que ignoran la estructura global de la propagación de la información. Proponemos FlowTracer, un marco de RL que rastrea el flujo de razonamiento orientado a la respuesta en un grafo acíclico dirigido inducido por la atención, en el cual los nodos corresponden a tokens y las capacidades de los arcos provienen de pesos de atención agregados, y deriva el crédito de tokens a partir de esta estructura global. Las capacidades de los arcos se re-ponderan para retener solo la influencia que puede alcanzar la región de la respuesta, mientras se impone la conservación local del flujo para que los tokens intermedios no pierdan ni ganen masa efectiva debido a la longitud de la ruta o ramas irrelevantes. Sobre este grafo, FlowTracer extrae una columna vertebral del flujo de información que conecta la pregunta con la respuesta y puntúa los tokens según el rendimiento del flujo, revelando hubs de alto impacto y puntos de control de agregación que median dependencias de largo alcance. Estas importancias derivadas se utilizan para dar forma a las recompensas a nivel de token, permitiendo que las señales de aprendizaje se centren precisamente en los tokens que enrutan la información hacia (o alejándola de) las respuestas correctas, y proporcionando mejoras de rendimiento consistentes en una variedad de tareas de razonamiento.

English

Token-level credit assignment remains a key obstacle for reinforcement learning (RL) in large language models (LLMs), where RL recipes typically treat all tokens equally, failing to distinguish decisive reasoning steps from routine formatting or fluent filler. Recent attempts leverage model-internal signals to assign finer-grained credit, but these are often point-wise heuristics that ignore the global structure of information propagation. We propose FlowTracer, an RL framework that traces answer-targeted reasoning flow on an attention-induced directed acyclic graph in which nodes correspond to tokens and edge capacities come from aggregated attention weights and derives token credit from this global structure. The edge capacities are reweighted to retain only the influence that can reach the answer region, while enforcing local flow conservation so intermediate tokens neither lose nor gain effective mass due to path length or irrelevant branches. On this graph, FlowTracer extracts an information-flow backbone connecting the question to the answer and scores tokens by flow throughput, revealing high-impact hubs and aggregation checkpoints that mediate long-range dependencies. These derived importances are used to shape token-level rewards, enabling learning signals to focus precisely on the tokens that route information toward (or away from) correct answers and delivering consistent performance gains across a range of reasoning tasks.