ChatPaper.aiChatPaper

Robust-R1: 강건한 시각적 이해를 위한 열화 인식 추론

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

December 19, 2025
저자: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI

초록

다중모드 대규모 언어 모델은 실제 환경의 극단적인 시각적 열화 조건에서 안정적인 성능을 유지하는 데 어려움을 겪어 실용적 견고성이 제한됩니다. 기존의 견고한 MLLM들은 주로 시각 인코더 일반화에만 초점을 맞춘 암묵적 학습/적응 방식에 의존하여 해석 가능성이 제한되고 고립된 최적화 문제를 안고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 구조화된 추론 체인을 통해 시각적 열화를 명시적으로 모델링하는 새로운 프레임워크인 Robust-R1을 제안합니다. 우리의 접근법은 (i) 열화 인식 추론 기반을 위한 지도 미세 조정, (ii) 열화 매개변수를 정확하게 인지하기 위한 보상 기반 정렬, (iii) 열화 강도에 적응하는 동적 추론 깊이 스케일링을 통합합니다. 이 접근법을 지원하기 위해 실제 환경의 네 가지 주요 시각 처리 단계에서 합성된 현실적인 열화를 포함하고, 열화 매개변수, 지각적 영향, 원본 의미론적 추론 체인, 결론을 연결하는 구조화된 체인으로 주석이 달린 전문화된 11K 데이터셋을 구축했습니다. 포괄적 평가 결과 최첨단 견고성을 입증했습니다: Robust-R1은 실제 열화 벤치마크 R-Bench에서 일반 및 견고한 모든 기준 모델을 능가하며, MMMB, MMStar, RealWorldQA에서 다중 강도 적대적 열화 조건 하에서도 우수한 열화 방어 성능을 유지합니다.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.
PDF41December 23, 2025