ChatPaper.aiChatPaper

Robust-R1: Ragionamento Consapevole del Degrado per una Comprensione Visiva Robusta

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

December 19, 2025
Autori: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni faticano a mantenere prestazioni affidabili in condizioni di degrado visivo estremo del mondo reale, il che ne ostacola la robustezza pratica. I modelli MLLM robusti esistenti si basano prevalentemente su addestramento/adattamento implicito che si concentra esclusivamente sulla generalizzazione dell'encoder visivo, soffrendo di limitata interpretabilità e ottimizzazione isolata. Per superare queste limitazioni, proponiamo Robust-R1, un framework innovativo che modella esplicitamente il degrado visivo attraverso catene di ragionamento strutturate. Il nostro approccio integra: (i) fine-tuning supervisionato per fondamenta di ragionamento consapevole del degrado, (ii) allineamento guidato da ricompense per percepire accuratamente i parametri di degrado, e (iii) scalatura dinamica della profondità di ragionamento adattata all'intensità del degrado. Per facilitare questo approccio, introduciamo un dataset specializzato di 11K elementi che presenta degradi realistici sintetizzati attraverso quattro fasi critiche dell'elaborazione visiva del mondo reale, ciascuno annotato con catene strutturate che collegano parametri di degrado, influenza percettiva, catena di ragionamento semantico originale e conclusione. Valutazioni complete dimostrano una robustezza allo stato dell'arte: Robust-R1 supera tutti i baseline generali e robusti sul benchmark di degrado reale R-Bench, mantenendo al contempo prestazioni anti-degrado superiori sotto degradi avversari multi-intensità su MMMB, MMStar e RealWorldQA.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.
PDF41December 23, 2025