RAGEN-2: 에이전트 강화학습에서의 추론 붕괴
RAGEN-2: Reasoning Collapse in Agentic RL
April 7, 2026
저자: Zihan Wang, Chi Gui, Xing Jin, Qineng Wang, Licheng Liu, Kangrui Wang, Shiqi Chen, Linjie Li, Zhengyuan Yang, Pingyue Zhang, Yiping Lu, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
cs.AI
초록
다중 턴 LLM 에이전트의 강화학습 훈련은 본질적으로 불안정하며, 추론 품질이 작업 성능을 직접 결정합니다. 엔트로피는 추론 안정성을 추적하는 데 널리 사용됩니다. 그러나 엔트로피는 동일한 입력 내 다양성만 측정할 뿐, 추론이 실제로 서로 다른 입력에 반응하는지는 알 수 없습니다. RAGEN-2에서 우리는 엔트로피가 안정적이더라도 모델이 다양해 보이지만 입력에 무관한 고정된 템플릿에 의존할 수 있음을 발견했습니다. 우리는 이를 엔트로피와 기존 모든 지표에서 감지할 수 없는 실패 모드인 '템플릿 붕괴(template collapse)'라고 명명합니다. 이 실패를 진단하기 위해 우리는 추론 품질을 입력 내 다양성(엔트로피)과 입력 간 구별 가능성(상호 정보량, MI)으로 분해하고, 온라인 진단을 위한 일련의 상호 정보량 대용 지표를 도입합니다. 다양한 작업에서 상호 정보량은 엔트로피보다 최종 성능과 훨씬 더 강한 상관관계를 보여, 추론 품질의 더 신뢰할 수 있는 대용 지표가 됩니다. 우리는 신호 대 잡음비(SNR) 메커니즘으로 템플릿 붕괴를 추가로 설명합니다. 낮은 보상 분산은 작업 그래디언트를 약화시켜 정규화 항이 지배적으로 작용하게 하고 입력 간 추론 차이를 지워버립니다. 이를 해결하기 위해 우리는 보상 분산을 경량 대용 지표로 사용하여 반복마다 고신호 프롬프트를 선택하는 SNR 인식 필터링을 제안합니다. 계획 수립, 수학적 추론, 웹 탐색, 코드 실행에 걸쳐 이 방법은 입력 의존성과 작업 성능을 모두 지속적으로 향상시킵니다.
English
RL training of multi-turn LLM agents is inherently unstable, and reasoning quality directly determines task performance. Entropy is widely used to track reasoning stability. However, entropy only measures diversity within the same input, and cannot tell whether reasoning actually responds to different inputs. In RAGEN-2, we find that even with stable entropy, models can rely on fixed templates that look diverse but are input-agnostic. We call this template collapse, a failure mode invisible to entropy and all existing metrics. To diagnose this failure, we decompose reasoning quality into within-input diversity (Entropy) and cross-input distinguishability (Mutual Information, MI), and introduce a family of mutual information proxies for online diagnosis. Across diverse tasks, mutual information correlates with final performance much more strongly than entropy, making it a more reliable proxy for reasoning quality. We further explain template collapse with a signal-to-noise ratio (SNR) mechanism. Low reward variance weakens task gradients, letting regularization terms dominate and erase cross-input reasoning differences. To address this, we propose SNR-Aware Filtering to select high-signal prompts per iteration using reward variance as a lightweight proxy. Across planning, math reasoning, web navigation, and code execution, the method consistently improves both input dependence and task performance.