CLEAR: Sbloccare il Potenziale Generativo per la Comprensione di Immagini Degradate nei Modelli Multimodali Unificati

Abstract

Il degrado delle immagini dovuto a sfocatura, rumore, compressione e scarsa illuminazione compromette gravemente la comprensione multimodale in contesti reali. I modelli multimodali unificati, che combinano comprensione e generazione in un'unica architettura, sono naturalmente adatti a questa sfida, poiché il loro percorso generativo può modellare la struttura visiva fine che il degrado distrugge. Tuttavia, questi modelli non riescono a sfruttare la propria capacità generativa su input degradati. Riconduciamo questa disconnessione a due fattori concomitanti: i regimi di addestramento esistenti non richiedono mai al modello di invocare la generazione durante il ragionamento, e il percorso standard di decodifica-ricodifica non supporta un'ottimizzazione congiunta efficace. Presentiamo CLEAR, un framework che collega le due capacità attraverso tre passi progressivi: (1) fine-tuning supervisionato su un dataset consapevole del degrado per stabilire il modello di ragionamento "genera poi rispondi"; (2) un Ponte di Rappresentazione Latente che sostituisce la deviazione decodifica-ricodifica con una connessione diretta e ottimizzabile tra generazione e ragionamento; (3) Interleaved GRPO, un metodo di apprendimento per rinforzo che ottimizza congiuntamente il ragionamento testuale e la generazione visiva sotto ricompense di correttezza della risposta. Costruiamo MMD-Bench, che copre tre livelli di gravità del degrado su sei benchmark multimodali standard. Gli esperimenti mostrano che CLEAR migliora sostanzialmente la robustezza su input degradati preservando le prestazioni su immagini pulite. La nostra analisi rivela inoltre che rimuovere la supervisione della ricostruzione a livello di pixel porta a stati visivi intermedi con una qualità percettiva più elevata, suggerendo che l'ottimizzazione guidata dal compito e la qualità visiva siano naturalmente allineate.

English

Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.

CLEAR: Sbloccare il Potenziale Generativo per la Comprensione di Immagini Degradate nei Modelli Multimodali Unificati

CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

Abstract

Support