Robust-U1: Kunnen MLLM's beschadigde visuele inhoud zelf herstellen voor robuust begrip?

Samenvatting

Multimodale grote taalmodellen (MLLM's) hebben opmerkelijk succes geboekt in visueel begrip, maar hun prestaties nemen aanzienlijk af onder realistische visuele corrupties. Hoewel er bestaande benaderingen zijn voor robuustheidsverbetering, zijn deze beperkt: black-box-kenmerkafstemming mist interpreteerbaarheid en white-box tekstgebaseerd redeneren kan verloren pixelniveau-details niet herstellen. Dit werk onderzoekt een fundamentele onderzoeksvraag: Kunnen MLLM's zelf gecorrumpeerde visuele inhoud herstellen? Om dit aan te pakken, stellen we Robust-U1 voor, een nieuw raamwerk dat MLLM's uitrust met expliciete visuele zelfherstelcapaciteit voor robuust begrip. De aanpak omvat drie kernfasen: gesuperviseerde fijnafstemming voor initiële reconstructie, versterkend leren met dubbele beloningen (SSIM op pixelniveau en CLIP-gelijkenis op semantisch niveau) voor het afstemmen op hoge visuele kwaliteit, en multimodaal redeneren dat zowel de gecorrumpeerde invoer als het herstelde beeld gezamenlijk beschouwt. Uitgebreide experimenten tonen aan dat Robust-U1 state-of-the-art robuustheid bereikt op de realistische corruptiebenchmark en superieure prestaties handhaaft onder adversariële corrupties op algemene VQA-benchmarks. Analyse bevestigt dat visueel herstel van hoge kwaliteit direct de redeneerprestaties verbetert, waarmee zelfherstel wordt gevestigd als een cruciaal mechanisme voor robuust visueel begrip. De broncode is beschikbaar op https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.