Robust-R1 : Raisonnement tenant compte de la dégradation pour une compréhension visuelle robuste
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
December 19, 2025
papers.authors: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille peinent à maintenir des performances fiables face aux dégradations visuelles extrêmes du monde réel, ce qui compromet leur robustesse pratique. Les modèles robustes existants reposent principalement sur des approches d'entraînement/adaptation implicites qui se concentrent uniquement sur la généralisation de l'encodeur visuel, souffrant d'une interprétabilité limitée et d'une optimisation isolée. Pour surmonter ces limitations, nous proposons Robust-R1, un nouveau cadre qui modélise explicitement les dégradations visuelles par des chaînes de raisonnement structurées. Notre approche intègre : (i) un ajustement fin supervisé pour établir des bases de raisonnement sensibles aux dégradations, (ii) un alignement par récompense pour percevoir précisément les paramètres de dégradation, et (iii) une mise à l'échelle dynamique de la profondeur de raisonnement adaptée à l'intensité de la dégradation. Pour faciliter cette approche, nous présentons un jeu de données spécialisé de 11 000 éléments comportant des dégradations réalistes synthétisées selon quatre étapes critiques du traitement visuel réel, chacune annotée avec des chaînes structurées liant les paramètres de dégradation, l'influence perceptuelle, la chaîne de raisonnement sémantique originelle et la conclusion. Les évaluations exhaustives démontrent une robustesse de pointe : Robust-R1 surpasse toutes les bases de référence générales et robustes sur le benchmark de dégradation réaliste R-Bench, tout en maintenant des performances anti-dégradation supérieures sous des dégradations adverses multi-intensité sur MMMB, MMStar et RealWorldQA.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.