CLEAR: Раскрытие генеративного потенциала для анализа деградированных изображений в унифицированных мультимодальных моделях
CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
April 6, 2026
Авторы: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun
cs.AI
Аннотация
Деградация изображений из-за размытия, шума, сжатия и плохого освещения серьезно подрывает мультимодальное понимание в реальных условиях. Унифицированные мультимодальные модели, объединяющие понимание и генерацию в единой архитектуре, естественно подходят для решения этой задачи, поскольку их генеративный путь может моделировать детальную визуальную структуру, которую разрушает деградация. Однако эти модели не используют собственный генеративный потенциал на деградированных входных данных. Мы связываем этот разрыв с двумя взаимно усиливающимися факторами: существующие режимы обучения никогда не требуют от модели задействовать генерацию в процессе рассуждения, а стандартный путь "декодирование-перекодирование" не поддерживает эффективную совместную оптимизацию. Мы представляем CLEAR — фреймворк, который соединяет эти две возможности через три прогрессивных шага: (1) контролируемое тонкое обучение на наборе данных с учетом деградации для установления паттерна рассуждения "сгенерировать, затем ответить"; (2) Мост латентных представлений, заменяющий обходной путь "декодирование-перекодирование" прямой оптимизируемой связью между генерацией и рассуждением; (3) Чередующийся GRPO — метод обучения с подкреплением, который совместно оптимизирует текстовое рассуждение и визуальную генерацию при вознаграждении за правильность ответа. Мы создали MMD-Bench, охватывающий три уровня серьезности деградации в шести стандартных мультимодальных тестах. Эксперименты показывают, что CLEAR существенно повышает устойчивость к деградированным входным данным, сохраняя при этом производительность на чистых изображениях. Наш анализ дополнительно раскрывает, что устранение контроля реконструкции на пиксельном уровне приводит к промежуточным визуальным состояниям с более высоким перцептивным качеством, что свидетельствует о естественном согласовании задач оптимизации и визуального качества.
English
Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.