Robust-U1: Können MLLMs beschädigte visuelle Inhalte für ein robustes Verständnis selbst wiederherstellen?

Zusammenfassung

Multimodale Große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge im visuellen Verständnis erzielt, doch ihre Leistung verschlechtert sich unter realen visuellen Störungen erheblich. Zwar existieren vorhandene Ansätze zur Verbesserung der Robustheit, jedoch sind diese begrenzt: Black-Box-Feature-Ausrichtung entbehrt der Interpretierbarkeit, und textbasiertes Reasoning im White-Box-Setting kann verlorene Pixel-feine Details nicht wiederherstellen. Diese Arbeit untersucht eine grundlegende Forschungsfrage: Können MLLMs gestörte visuelle Inhalte eigenständig wiederherstellen? Zur Beantwortung schlagen wir Robust-U1 vor, ein neuartiges Framework, das MLLMs mit expliziter visueller Selbstwiederherstellungsfähigkeit für robustes Verständnis ausstattet. Der Ansatz umfasst drei Kernphasen: überwachtes Feintuning für initiale Rekonstruktion, Verstärkungslernen mit dualen Belohnungen (Pixel-genaue SSIM- und semantische CLIP-Ähnlichkeit) zur Ausrichtung auf hohe visuelle Qualität sowie multimodales Reasoning, das sowohl die gestörte Eingabe als auch das wiederhergestellte Bild gemeinsam betrachtet. Umfangreiche Experimente belegen, dass Robust-U1 auf dem Benchmark für reale Störungen modernste Robustheit erreicht und unter gegnerischen Störungen auf allgemeinen VQA-Benchmarks überlegene Leistung beibehält. Analysen bestätigen, dass eine hochwertige visuelle Wiederherstellung die Reasoning-Leistung direkt verbessert, womit sich Selbstwiederherstellung als entscheidender Mechanismus für robustes visuelles Verständnis erweist. Der Quellcode ist verfügbar unter https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.