RAGEN-2: Коллапс рассуждений в агентском обучении с подкреплением

Аннотация

Обучение с подкреплением (RL) многопроходных агентов на основе больших языковых моделей (LLM) по своей природе нестабильно, а качество рассуждений напрямую определяет результативность решения задач. Энтропия широко используется для отслеживания стабильности рассуждений. Однако энтропия измеряет только разнообразие для одного и того же входа и не может показать, действительно ли рассуждения реагируют на различные входные данные. В RAGEN-2 мы обнаружили, что даже при стабильной энтропии модели могут полагаться на фиксированные шаблоны, которые выглядят разнообразно, но не зависят от входных данных. Мы называем это *коллапсом шаблонов* — режимом сбоя, невидимым для энтропии и всех существующих метрик. Для диагностики этого сбоя мы разлагаем качество рассуждений на внутри-input разнообразие (Энтропия) и меж-input различимость (Взаимная Информация, MI) и вводим семейство прокси-метрик взаимной информации для онлайн-диагностики. На разнообразных задачах взаимная информация коррелирует с итоговой производительностью значительно сильнее, чем энтропия, что делает её более надежным прокси для качества рассуждений. Мы дополнительно объясняем коллапс шаблонов с помощью механизма отношения сигнал-шум (SNR). Низкая дисперсия вознаграждения ослабляет градиенты задачи, позволяя терминам регуляризации доминировать и стирать меж-input различия в рассуждениях. Для решения этой проблемы мы предлагаем *SNR-осознанную фильтрацию* для отбора промптов с высоким сигналом на каждой итерации, используя дисперсию вознаграждения в качестве легковесного прокси. В таких областях, как планирование, математические рассуждения, веб-навигация и выполнение кода, этот метод последовательно улучшает как зависимость от входных данных, так и результативность задач.

English

RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.

RAGEN-2: Коллапс рассуждений в агентском обучении с подкреплением

RAGEN-2: Reasoning Collapse in Agentic RL

Аннотация

Support