Robust-R1: Raciocínio Consciente da Degradação para uma Compreensão Visual Robusta

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) lutam para manter um desempenho confiável sob degradações visuais extremas do mundo real, o que prejudica sua robustez prática. Os MLLMs robustos existentes dependem predominantemente de treinamento/adaptação implícita que se concentra apenas na generalização do codificador visual, sofrendo com interpretabilidade limitada e otimização isolada. Para superar essas limitações, propomos o Robust-R1, uma nova estrutura que modela explicitamente as degradações visuais por meio de cadeias de raciocínio estruturadas. Nossa abordagem integra: (i) ajuste fino supervisionado para fundamentos de raciocínio conscientes da degradação, (ii) alinhamento orientado por recompensa para perceber com precisão os parâmetros de degradação, e (iii) dimensionamento dinâmico da profundidade do raciocínio adaptado à intensidade da degradação. Para facilitar esta abordagem, introduzimos um conjunto de dados especializado de 11K caracterizado por degradações realistas sintetizadas em quatro estágios críticos de processamento visual do mundo real, cada um anotado com cadeias estruturadas conectando parâmetros de degradação, influência perceptual, cadeia de raciocínio semântico original e conclusão. Avaliações abrangentes demonstram robustez state-of-the-art: o Robust-R1 supera todas as linhas de base gerais e robustas no benchmark de degradação do mundo real R-Bench, mantendo simultaneamente um desempenho anti-degradação superior sob degradações adversárias de múltiplas intensidades no MMMB, MMStar e RealWorldQA.

English

Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.

Robust-R1: Raciocínio Consciente da Degradação para uma Compreensão Visual Robusta

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Resumo

Support