ChatPaper.aiChatPaper

CLEAR : Libérer le potentiel génératif pour la compréhension d'images dégradées dans les modèles multimodaux unifiés

CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

April 6, 2026
Auteurs: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun
cs.AI

Résumé

La dégradation d'image due au flou, au bruit, à la compression et à un éclairage médiocre compromet gravement la compréhension multimodale dans des conditions réelles. Les modèles multimodaux unifiés, qui combinent compréhension et génération au sein d'une architecture unique, sont naturellement adaptés à ce défi, car leur voie générative peut modéliser la structure visuelle fine que la dégradation détruit. Pourtant, ces modèles ne parviennent pas à exploiter leur propre capacité générative sur des entrées dégradées. Nous attribuons cette déconnexion à deux facteurs qui se cumulent : les régimes d'entraînement existants ne demandent jamais au modèle d'invoquer la génération durant le raisonnement, et la voie standard de décodage-réencodage ne permet pas une optimisation conjointe efficace. Nous présentons CLEAR, un cadre qui connecte les deux capacités via trois étapes progressives : (1) un affinage supervisé sur un jeu de données sensible à la dégradation pour établir le schéma de raisonnement générer-puis-répondre ; (2) un Pont de Représentation Latente qui remplace le détour par décodage-réencodage par une connexion directe et optimisable entre la génération et le raisonnement ; (3) le GRPO Entrelacé, une méthode d'apprentissage par renforcement qui optimise conjointement le raisonnement textuel et la génération visuelle avec des récompenses basées sur l'exactitude des réponses. Nous construisons MMD-Bench, couvrant trois niveaux de sévérité de dégradation sur six benchmarks multimodaux standards. Les expériences montrent que CLEAR améliore substantiellement la robustesse sur les entrées dégradées tout en préservant les performances sur images propres. Notre analyse révèle en outre que supprimer la supervision par reconstruction au niveau pixel conduit à des états visuels intermédiaires de meilleure qualité perceptuelle, suggérant que l'optimisation guidée par la tâche et la qualité visuelle sont naturellement alignées.
English
Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.
PDF51April 8, 2026