Auf dem Weg zum multimodalen Verständnis durch Stable Diffusion als aufgabenbewusster Merkmalsextraktor
Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
July 9, 2025
papers.authors: Vatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava
cs.AI
papers.abstract
Jüngste Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben bildbasierte Frage-Antwort-Fähigkeiten ermöglicht. Ein zentraler Nachteil ist jedoch die Verwendung von CLIP als visueller Encoder; während es grobe globale Informationen erfassen kann, übersieht es oft fein abgestimmte Details, die für die Eingabeabfrage relevant sind. Um diese Mängel zu beheben, untersucht diese Arbeit, ob vortrainierte Text-zu-Bild-Diffusionsmodelle als instruktionsbewusste visuelle Encoder dienen können. Durch eine Analyse ihrer internen Repräsentationen stellen wir fest, dass Diffusionsmerkmale sowohl semantisch reichhaltig sind als auch eine starke Bild-Text-Ausrichtung kodieren können. Darüber hinaus finden wir, dass wir die Textkonditionierung nutzen können, um das Modell auf die für die Eingabefrage relevanten Regionen zu fokussieren. Anschließend untersuchen wir, wie diese Merkmale mit großen Sprachmodellen ausgerichtet werden können, und decken ein Leckphänomen auf, bei dem das LLM unbeabsichtigt Informationen aus dem ursprünglichen Diffusions-Prompt wiederherstellen kann. Wir analysieren die Ursachen dieses Lecks und schlagen eine Strategie zur Minderung vor. Basierend auf diesen Erkenntnissen untersuchen wir eine einfache Fusionsstrategie, die sowohl CLIP als auch konditionale Diffusionsmerkmale nutzt. Wir bewerten unseren Ansatz sowohl anhand allgemeiner VQA- als auch spezialisierter MLLM-Benchmarks und demonstrieren das Potenzial von Diffusionsmodellen für das visuelle Verständnis, insbesondere bei visuell zentrierten Aufgaben, die räumliches und kompositionelles Denken erfordern. Unsere Projektseite ist unter https://vatsalag99.github.io/mustafar/ zu finden.
English
Recent advances in multimodal large language models (MLLMs) have enabled
image-based question-answering capabilities. However, a key limitation is the
use of CLIP as the visual encoder; while it can capture coarse global
information, it often can miss fine-grained details that are relevant to the
input query. To address these shortcomings, this work studies whether
pre-trained text-to-image diffusion models can serve as instruction-aware
visual encoders. Through an analysis of their internal representations, we find
diffusion features are both rich in semantics and can encode strong image-text
alignment. Moreover, we find that we can leverage text conditioning to focus
the model on regions relevant to the input question. We then investigate how to
align these features with large language models and uncover a leakage
phenomenon, where the LLM can inadvertently recover information from the
original diffusion prompt. We analyze the causes of this leakage and propose a
mitigation strategy. Based on these insights, we explore a simple fusion
strategy that utilizes both CLIP and conditional diffusion features. We
evaluate our approach on both general VQA and specialized MLLM benchmarks,
demonstrating the promise of diffusion models for visual understanding,
particularly in vision-centric tasks that require spatial and compositional
reasoning. Our project page can be found
https://vatsalag99.github.io/mustafar/.