Robust-U1: Os MLLMs podem auto-recuperar conteúdo visual corrompido para uma compreensão robusta?

Resumo

Os Modelos de Linguagem Grandes e Multimodais (MLLMs) demonstraram um sucesso notável na compreensão visual, no entanto, seu desempenho degrada significativamente sob corrupções visuais do mundo real. Embora existam abordagens existentes para melhoria da robustez, estas são limitadas: o alinhamento de características em caixa preta carece de interpretabilidade, e o raciocínio baseado em texto em caixa branca não consegue restaurar detalhes perdidos em nível de pixel. Este trabalho investiga uma questão de pesquisa fundamental: os MLLMs podem recuperar conteúdo visual corrompido por si mesmos? Para abordar isso, propomos Robust-U1, uma nova estrutura que dota os MLLMs de capacidade explícita de autorrecuperação visual para compreensão robusta. A abordagem compreende três estágios centrais: ajuste fino supervisionado para reconstrução inicial, aprendizado por reforço com recompensas duplas (SSIM em nível de pixel e similaridade CLIP em nível semântico) para alinhar alta qualidade visual, e raciocínio multimodal que considera conjuntamente tanto a entrada corrompida quanto a imagem recuperada. Experimentos extensivos demonstram que Robust-U1 alcança robustez de ponta no referencial de corrupção do mundo real e mantém desempenho superior sob corrupções adversariais em referenciais gerais de VQA. A análise confirma que a recuperação visual de alta qualidade melhora diretamente o desempenho do raciocínio, estabelecendo a autorrecuperação como um mecanismo crítico para a compreensão visual robusta. O código-fonte está disponível em https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.