CLEAR: Desbloqueando el Potencial Generativo para la Comprensión de Imágenes Degradadas en Modelos Multimodales Unificados
CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
April 6, 2026
Autores: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun
cs.AI
Resumen
La degradación de imágenes por desenfoque, ruido, compresión y mala iluminación socava gravemente la comprensión multimodal en entornos del mundo real. Los modelos multimodales unificados que combinan comprensión y generación en una única arquitectura son idóneos para este desafío, ya que su vía generativa puede modelar la estructura visual de grano fino que la degradación destruye. Sin embargo, estos modelos no logran aprovechar su propia capacidad generativa con entradas degradadas. Rastreamos esta desconexión hasta dos factores que se potencian: los regímenes de entrenamiento existentes nunca exigen al modelo invocar la generación durante el razonamiento, y la vía estándar de decodificar-recodificar no permite una optimización conjunta efectiva. Presentamos CLEAR, un marco que conecta las dos capacidades mediante tres pasos progresivos: (1) ajuste fino supervisado en un conjunto de datos consciente de la degradación para establecer el patrón de razonamiento de generar-y-luego-responder; (2) un Puente de Representación Latente que reemplaza el desvío de decodificar-recodificar con una conexión directa y optimizable entre generación y razonamiento; (3) GRPO Entrelazado, un método de aprendizaje por refuerzo que optimiza conjuntamente el razonamiento textual y la generación visual bajo recompensas de corrección de respuestas. Construimos MMD-Bench, que cubre tres niveles de severidad de degradación en seis benchmarks multimodales estándar. Los experimentos muestran que CLEAR mejora sustancialmente la robustez en entradas degradadas mientras preserva el rendimiento en imágenes limpias. Nuestro análisis revela además que eliminar la supervisión de reconstrucción a nivel de píxel conduce a estados visuales intermedios con mayor calidad perceptual, sugiriendo que la optimización guiada por la tarea y la calidad visual están naturalmente alineadas.
English
Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.