ChatPaper.aiChatPaper

Robust-R1: Degradatiebewuste Redenering voor Robuust Visueel Begrip

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

December 19, 2025
Auteurs: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI

Samenvatting

Multimodale Large Language Models hebben moeite om betrouwbare prestaties te handhaven onder extreme visuele degradaties in de praktijk, wat hun robuustheid in de praktijk belemmert. Bestaande robuuste MLLM's zijn voornamelijk afhankelijk van impliciete training/aanpassing die uitsluitend gericht is op de generalisatie van de visuele encoder, wat leidt tot beperkte interpreteerbaarheid en geïsoleerde optimalisatie. Om deze beperkingen te overwinnen, stellen wij Robust-R1 voor, een nieuw framework dat visuele degradaties expliciet modelleert via gestructureerde redeneerketens. Onze aanpak integreert: (i) supervised fine-tuning voor degradatiebewuste redeneerfundamenten, (ii) beloningsgedreven afstemming voor het nauwkeurig waarnemen van degradatieparameters, en (iii) dynamische schaling van de redeneerdiepte afgestemd op de degradatie-intensiteit. Om deze aanpak te faciliteren, introduceren wij een gespecialiseerde 11K-dataset met realistische degradaties gesynthetiseerd over vier kritieke visuele verwerkingsfasen in de praktijk, elk geannoteerd met gestructureerde ketens die degradatieparameters, perceptuele invloed, ongerepte semantische redeneerketen en conclusie verbinden. Uitgebreide evaluaties tonen state-of-the-art robuustheid aan: Robust-R1 presteert beter dan alle algemene en robuuste vergelijkingsmodellen op de real-world degradatiebenchmark R-Bench, en behoudt tegelijkertijd superieure anti-degradatieprestaties onder multi-intensiteit adversariële degradaties op MMMB, MMStar en RealWorldQA.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.
PDF41December 23, 2025