CLEAR: Desbloqueando o Potencial Generativo para a Compreensão de Imagens Degradadas em Modelos Multimodais Unificados
CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
April 6, 2026
Autores: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun
cs.AI
Resumo
A degradação de imagens causada por desfoque, ruído, compressão e má iluminação prejudica severamente a compreensão multimodal em ambientes do mundo real. Modelos multimodais unificados, que combinam compreensão e geração em uma única arquitetura, são naturalmente adequados para este desafio, pois seu caminho generativo pode modelar a estrutura visual de granularidade fina que a degradação destrói. No entanto, esses modelos falham em aproveitar sua própria capacidade generativa em entradas degradadas. Rastreamos essa desconexão até dois fatores que se somam: os regimes de treinamento existentes nunca solicitam que o modelo invoque a geração durante o raciocínio, e o caminho padrão de decodificar-recodificar não suporta uma otimização conjunta eficaz. Apresentamos o CLEAR, uma estrutura que conecta as duas capacidades por meio de três etapas progressivas: (1) ajuste fino supervisionado em um conjunto de dados consciente da degradação para estabelecer o padrão de raciocínio "gerar-depois-responder"; (2) uma Ponte de Representação Latente que substitui o desvio de decodificar-recodificar por uma conexão direta e otimizável entre geração e raciocínio; (3) GRPO Entrelaçado, um método de aprendizado por reforço que otimiza conjuntamente o raciocínio textual e a geração visual sob recompensas de correção da resposta. Construímos o MMD-Bench, abrangendo três níveis de severidade de degradação em seis benchmarks multimodais padrão. Experimentos mostram que o CLEAR melhora substancialmente a robustez em entradas degradadas, preservando o desempenho em imagens limpas. Nossa análise revela ainda que a remoção da supervisão de reconstrução em nível de pixel leva a estados visuais intermediários com maior qualidade perceptual, sugerindo que a otimização orientada por tarefas e a qualidade visual estão naturalmente alinhadas.
English
Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.