Robust-U1 : Les MLLM peuvent-ils auto-récupérer un contenu visuel corrompu pour une compréhension robuste ?

Résumé

Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont démontré un succès remarquable dans la compréhension visuelle, mais leurs performances se dégradent significativement face aux corruptions visuelles du monde réel. Bien qu'il existe des approches existantes pour améliorer la robustesse, elles sont limitées : l'alignement des caractéristiques en boîte noire manque d'interprétabilité, et le raisonnement textuel en boîte blanche ne peut pas restaurer les détails perdus au niveau des pixels. Ce travail examine une question fondamentale de recherche : les MLLMs peuvent-ils récupérer par eux-mêmes le contenu visuel corrompu ? Pour y répondre, nous proposons Robust-U1, un nouveau cadre qui dote les MLLMs d'une capacité explicite d'auto-récupération visuelle pour une compréhension robuste. L'approche comprend trois étapes principales : un ajustement fin supervisé pour la reconstruction initiale, un apprentissage par renforcement avec des récompenses doubles (SSIM au niveau des pixels et similarité CLIP au niveau sémantique) pour aligner une haute qualité visuelle, et un raisonnement multimodal qui considère conjointement l'entrée corrompue et l'image restaurée. Des expériences approfondies montrent que Robust-U1 atteint une robustesse de pointe sur le banc d'essai de corruptions réelles et maintient des performances supérieures sous des corruptions adversaires sur des bancs d'essai VQA généraux. L'analyse confirme qu'une récupération visuelle de haute qualité améliore directement les performances de raisonnement, établissant l'auto-récupération comme un mécanisme critique pour une compréhension visuelle robuste. Le code source est disponible à l'adresse https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.