CLEAR: Het ontsluiten van generatief potentieel voor begrip van gedegradeerde beelden in geünificeerde multimodale modellen

Samenvatting

Beelddegradatie door vervaging, ruis, compressie en slechte belichting ondermijnt multimodaal begrip in real-world settings aanzienlijk. Geünificeerde multimodale modellen die begrip en generatie in een enkele architectuur combineren, zijn bij uitstek geschikt voor deze uitdaging, omdat hun generatieve pathway de fijnmazige visuele structuur kan modelleren die degradatie vernietigt. Toch slagen deze modellen er niet in hun eigen generatieve capaciteit te benutten bij gedegradeerde invoer. Wij herleiden deze disconnect tot twee samenhangende factoren: bestaande trainingsregimes vragen het model nooit om generatie tijdens redeneren aan te roepen, en de standaard decode-reencode pathway ondersteunt geen effectieve gezamenlijke optimalisatie. Wij presenteren CLEAR, een raamwerk dat de twee capaciteiten verbindt via drie progressieve stappen: (1) supervised fine-tuning op een degradatiebewuste dataset om het genereer-dan-antwoord redeneerpatroon te vestigen; (2) een Latent Representation Bridge die de decode-reencode omweg vervangt door een directe, optimaliseerbare verbinding tussen generatie en redeneren; (3) Interleaved GRPO, een reinforcement learning-methode die tekstredenering en visuele generatie gezamenlijk optimaliseert onder antwoordcorrectheidbeloningen. Wij construeren MMD-Bench, dat drie degradatieniveaus bestrijkt across zes standaard multimodale benchmarks. Experimenten tonen aan dat CLEAR de robuustheid op gedegradeerde invoer aanzienlijk verbetert while de prestatie op schone beelden behoudt. Onze analyse onthult verder dat het verwijderen van pixel-level reconstructietoezicht leidt tot intermediaire visuele toestanden met hogere perceptuele kwaliteit, wat suggereert dat taakgedreven optimalisatie en visuele kwaliteit van nature op één lijn liggen.

English

Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.

CLEAR: Het ontsluiten van generatief potentieel voor begrip van gedegradeerde beelden in geünificeerde multimodale modellen

CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

Samenvatting

Support