Robust-U1: ¿Pueden los MLLMs auto-recuperar contenido visual corrupto para una comprensión robusta?

Resumen

Los Modelos de Lenguaje de Gran Escala Multimodales (MLLMs) han demostrado un éxito notable en la comprensión visual, pero su rendimiento se degrada significativamente bajo corrupciones visuales del mundo real. Si bien existen enfoques existentes para mejorar la robustez, son limitados: la alineación de características en caja negra carece de interpretabilidad, y el razonamiento basado en texto en caja blanca no puede restaurar los detalles perdidos a nivel de píxel. Este trabajo investiga una pregunta de investigación fundamental: ¿Pueden los MLLMs recuperar contenido visual corrupto por sí mismos? Para abordar esto, proponemos Robust-U1, un marco novedoso que dota a los MLLMs de una capacidad explícita de autorecuperación visual para una comprensión robusta. El enfoque comprende tres etapas centrales: ajuste fino supervisado para la reconstrucción inicial, aprendizaje por refuerzo con recompensas duales (SSIM a nivel de píxel y similitud CLIP a nivel semántico) para alinear una alta calidad visual, y razonamiento multimodal que considera conjuntamente tanto la entrada corrupta como la imagen recuperada. Experimentos exhaustivos demuestran que Robust-U1 alcanza una robustez de vanguardia en el modelo de referencia de corrupciones del mundo real y mantiene un rendimiento superior bajo corrupciones adversarias en modelos de referencia generales de VQA. El análisis confirma que la recuperación visual de alta calidad mejora directamente el rendimiento del razonamiento, estableciendo la autorecuperación como un mecanismo crítico para la comprensión visual robusta. El código fuente está disponible en https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.