Robust-U1: Могут ли MLLMs самовосстанавливать поврежденное визуальное содержимое для устойчивого понимания?

Аннотация

Мультимодальные большие языковые модели (ММБЯМ) продемонстрировали значительный успех в визуальном понимании, однако их производительность существенно снижается при реальных визуальных искажениях. Хотя существуют существующие подходы к повышению устойчивости, они ограничены: выравнивание признаков в "черном ящике" лишено интерпретируемости, а текстовые рассуждения в "белом ящике" не могут восстановить утраченные детали на уровне пикселей. Данная работа исследует фундаментальный вопрос: могут ли ММБЯМ самостоятельно восстанавливать искаженное визуальное содержание? Для решения этой проблемы мы предлагаем Robust-U1 — новую архитектуру, наделяющую ММБЯМ явной способностью к визуальному самовосстановлению для устойчивого понимания. Подход включает три ключевых этапа: контролируемую тонкую настройку для начальной реконструкции, обучение с подкреплением с двойными вознаграждениями (индекс структурного сходства на уровне пикселей и сходство CLIP на семантическом уровне) для достижения высокого визуального качества, а также мультимодальное рассуждение, совместно учитывающее как искаженный входной сигнал, так и восстановленное изображение. Обширные эксперименты показывают, что Robust-U1 достигает самой высокой устойчивости на эталоне реальных искажений и сохраняет превосходную производительность при состязательных искажениях на общих бенчмарках VQA. Анализ подтверждает, что высококачественное визуальное восстановление напрямую улучшает производительность рассуждений, что делает самовосстановление критически важным механизмом для устойчивого визуального понимания. Исходный код доступен по адресу https://github.com/jqtangust/Robust-U1.

English

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades significantly under real-world visual corruptions. While existing robustness enhancement approaches exist, they are limited: black-box feature alignment lacks interpretability, and white-box text-based reasoning cannot restore lost pixel-level details. This work investigates a fundamental research question: Can MLLMs recover corrupted visual content by themselves? To address this, we propose Robust-U1, a novel framework that equips MLLMs with explicit visual self-recovery capability for robust understanding. The approach comprises three core stages: supervised fine-tuning for initial reconstruction, reinforcement learning with dual rewards (pixel-level SSIM and semantic-level CLIP similarity) for aligning high visual quality, and multimodal reasoning that jointly considers both the corrupted input and the recovered image. Extensive experiments demonstrate that Robust-U1 achieves state-of-the-art robustness on the real-world corruption benchmark and maintains superior performance under adversarial corruptions on general VQA benchmarks. Analysis confirms that high-quality visual recovery directly enhances reasoning performance, establishing self-recovery as a critical mechanism for robust visual understanding. The source code is available at https://github.com/jqtangust/Robust-U1.