Robust-R1: Razonamiento Consciente de la Degradación para una Comprensión Visual Robusta
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
December 19, 2025
Autores: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLM) presentan dificultades para mantener un rendimiento fiable bajo degradaciones visuales extremas del mundo real, lo que limita su robustez práctica. Los MLLM robustos existentes se basan predominantemente en estrategias de entrenamiento/adaptación implícitas que se centran únicamente en la generalización del codificador visual, adoleciendo de una interpretabilidad limitada y una optimización aislada. Para superar estas limitaciones, proponemos Robust-R1, un marco novedoso que modela explícitamente las degradaciones visuales mediante cadenas de razonamiento estructurado. Nuestro enfoque integra: (i) ajuste fino supervisado para sentar bases de razonamiento conscientes de la degradación, (ii) alineación basada en recompensas para percibir con precisión los parámetros de degradación, y (iii) escalado dinámico de la profundidad del razonamiento adaptado a la intensidad de la degradación. Para facilitar este enfoque, presentamos un conjunto de datos especializado de 11K ejemplos que incluye degradaciones realistas sintetizadas a lo largo de cuatro etapas críticas del procesamiento visual del mundo real, cada una anotada con cadenas estructuradas que conectan parámetros de degradación, influencia perceptual, cadena de razonamiento semántico prístina y conclusión. Evaluaciones exhaustivas demuestran una robustez de vanguardia: Robust-R1 supera a todos los modelos de referencia generales y robustos en el benchmark de degradación del mundo real R-Bench, manteniendo al mismo tiempo un rendimiento anti-degradación superior bajo degradaciones adversarias multi-intensidad en MMMB, MMStar y RealWorldQA.
English
Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.