RAGEN-2: Colapso del Razonamiento en el Aprendizaje por Refuerzo Agéntico

Resumen

El entrenamiento por RL de agentes de LLM multi-turn es inherentemente inestable, y la calidad del razonamiento determina directamente el rendimiento de la tarea. La entropía se utiliza ampliamente para rastrear la estabilidad del razonamiento. Sin embargo, la entropía solo mide la diversidad dentro de la misma entrada y no puede indicar si el razonamiento responde realmente a entradas diferentes. En RAGEN-2, encontramos que incluso con una entropía estable, los modelos pueden depender de plantillas fijas que parecen diversas pero son independientes de la entrada. Llamamos a esto colapso de plantilla, un modo de fallo invisible para la entropía y todas las métricas existentes. Para diagnosticar esta falla, descomponemos la calidad del razonamiento en diversidad intra-entrada (Entropía) y capacidad de distinción entre entradas (Información Mutua, MI), e introducimos una familia de proxies de información mutua para el diagnóstico en línea. En diversas tareas, la información mutua se correlaciona con el rendimiento final mucho más fuertemente que la entropía, lo que la convierte en un proxy más confiable para la calidad del razonamiento. Además, explicamos el colapso de plantilla con un mecanismo de relación señal-ruido (SNR). La baja varianza de la recompensa debilita los gradientes de la tarea, permitiendo que los términos de regularización dominen y borren las diferencias de razonamiento entre entradas. Para abordar esto, proponemos Filtrado Consciente del SNR para seleccionar prompts de alta señal por iteración utilizando la varianza de la recompensa como un proxy ligero. En planificación, razonamiento matemático, navegación web y ejecución de código, el método mejora consistentemente tanto la dependencia de la entrada como el rendimiento de la tarea.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Colapso del Razonamiento en el Aprendizaje por Refuerzo Agéntico

RAGEN-2: Reasoning Collapse in Agentic RL

Resumen

Support