CLEAR: Freischaltung des generativen Potenzials für das Verständnis degradierter Bilder in vereinheitlichten multimodalen Modellen

Zusammenfassung

Bildverschlechterung durch Unschärfe, Rauschen, Kompression und schlechte Beleuchtung untergräbt multimodales Verständnis in realen Umgebungen erheblich. Einheitliche multimodale Modelle, die Verständnis und Generierung in einer einzigen Architektur kombinieren, sind eine natürliche Lösung für diese Herausforderung, da ihr generativer Pfad die fein granulierte visuelle Struktur modellieren kann, die durch die Verschlechterung zerstört wird. Dennoch nutzen diese Modelle ihr eigenes Generierungsvermögen bei verschlechterten Eingaben nicht. Wir führen diese Diskrepanz auf zwei sich verstärkende Faktoren zurück: bestehende Trainingsregime fordern das Modell nie auf, Generierung während des Schlussfolgerns einzusetzen, und der standardmäßige Dekodier-Wiederenkodier-Pfad unterstützt keine effektive gemeinsame Optimierung. Wir stellen CLEAR vor, ein Framework, das die beiden Fähigkeiten durch drei progressive Schritte verbindet: (1) überwachtes Feintuning auf einem verschlechterungsbewussten Datensatz, um das Generiere-dann-Antworte-Schlussfolgermuster zu etablieren; (2) eine Latente Repräsentationsbrücke, die den Dekodier-Wiederenkodier-Umweg durch eine direkte, optimierbare Verbindung zwischen Generierung und Schlussfolgern ersetzt; (3) Interleaved GRPO, eine Reinforcement-Learning-Methode, die textbasiertes Schlussfolgern und visuelle Generierung unter Belohnungen für Antwortkorrektheit gemeinsam optimiert. Wir konstruieren MMD-Bench, das drei Schweregrade der Verschlechterung über sechs standardmäßige multimodale Benchmarks abdeckt. Experimente zeigen, dass CLEAR die Robustheit bei verschlechterten Eingaben erheblich verbessert, während die Leistung auf unverschlechterten Bildern erhalten bleibt. Unsere Analyse zeigt weiterhin, dass das Entfernen der pixelbasierten Rekonstruktionsüberwachung zu visuellen Zwischenzuständen mit höherer perzeptueller Qualität führt, was nahelegt, dass aufgabengetriebene Optimierung und visuelle Qualität natürlich im Einklang stehen.

English

Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.

CLEAR: Freischaltung des generativen Potenzials für das Verständnis degradierter Bilder in vereinheitlichten multimodalen Modellen

CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models

Zusammenfassung

Support