Robust-R1: Abbau-bewusstes Schließen für robustes visuelles Verständnis
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
December 19, 2025
papers.authors: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI
papers.abstract
Multimodale Large Language Models weisen bei extremen visuellen Verschlechterungen in realen Szenarien Schwierigkeiten auf, eine zuverlässige Leistung aufrechtzuerhalten, was ihre praktische Robustheit beeinträchtigt. Bestehende robuste MLLMs stützen sich überwiegend auf implizites Training/Adaptierung, das sich ausschließlich auf die Generalisierung des visuellen Encoders konzentriert, was zu begrenzter Interpretierbarkeit und isolierter Optimierung führt. Um diese Einschränkungen zu überwinden, schlagen wir Robust-R1 vor, einen neuartigen Rahmen, der visuelle Verschlechterungen explizit durch strukturierte Reasoning-Ketten modelliert. Unser Ansatz integriert: (i) überwachtes Fine-Tuning für verschlechterungsbewusste Reasoning-Grundlagen, (ii) belohnungsgesteuerte Ausrichtung zur präzisen Wahrnehmung von Verschlechterungsparametern und (iii) dynamische Skalierung der Reasoning-Tiefe, die an die Verschlechterungsintensität angepasst ist. Um diesen Ansatz zu ermöglichen, führen wir einen spezialisierten 11K-Datensatz ein, der realistische Verschlechterungen umfasst, die über vier kritische visuelle Verarbeitungsstufen der realen Welt synthetisiert wurden, jeweils annotiert mit strukturierten Ketten, die Verschlechterungsparameter, perzeptuellen Einfluss, ursprüngliche semantische Reasoning-Kette und Schlussfolgerung verbinden. Umfassende Evaluierungen demonstrieren state-of-the-art Robustheit: Robust-R1 übertrifft alle allgemeinen und robusten Baseline-Modelle auf dem Real-World-Verschlechterungsbenchmark R-Bench und behält gleichzeitig eine überlegene Anti-Degradation-Leistung unter mehrstufigen adversarischen Verschlechterungen auf MMMB, MMStar und RealWorldQA bei.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.