Verso una comprensione multimodale tramite Stable Diffusion come estrattore di caratteristiche orientato al compito
Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
July 9, 2025
Autori: Vatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno reso possibile la capacità di rispondere a domande basate su immagini. Tuttavia, una limitazione chiave è l'uso di CLIP come codificatore visivo; sebbene possa catturare informazioni globali approssimative, spesso può perdere dettagli fini che sono rilevanti per la query di input. Per affrontare queste carenze, questo lavoro studia se i modelli di diffusione pre-addestrati da testo a immagine possano fungere da codificatori visivi sensibili alle istruzioni. Attraverso un'analisi delle loro rappresentazioni interne, scopriamo che le caratteristiche di diffusione sono sia ricche di semantica che in grado di codificare un forte allineamento immagine-testo. Inoltre, troviamo che possiamo sfruttare il condizionamento del testo per focalizzare il modello sulle regioni rilevanti per la domanda di input. Successivamente, indaghiamo su come allineare queste caratteristiche con i modelli linguistici di grandi dimensioni e scopriamo un fenomeno di dispersione, in cui l'LLM può recuperare involontariamente informazioni dal prompt di diffusione originale. Analizziamo le cause di questa dispersione e proponiamo una strategia di mitigazione. Sulla base di queste intuizioni, esploriamo una semplice strategia di fusione che utilizza sia le caratteristiche di CLIP che quelle di diffusione condizionale. Valutiamo il nostro approccio su benchmark generali di VQA e su benchmark specializzati di MLLM, dimostrando il potenziale dei modelli di diffusione per la comprensione visiva, in particolare nei task centrati sulla visione che richiedono ragionamento spaziale e compositivo. La pagina del nostro progetto è disponibile all'indirizzo https://vatsalag99.github.io/mustafar/.
English
Recent advances in multimodal large language models (MLLMs) have enabled
image-based question-answering capabilities. However, a key limitation is the
use of CLIP as the visual encoder; while it can capture coarse global
information, it often can miss fine-grained details that are relevant to the
input query. To address these shortcomings, this work studies whether
pre-trained text-to-image diffusion models can serve as instruction-aware
visual encoders. Through an analysis of their internal representations, we find
diffusion features are both rich in semantics and can encode strong image-text
alignment. Moreover, we find that we can leverage text conditioning to focus
the model on regions relevant to the input question. We then investigate how to
align these features with large language models and uncover a leakage
phenomenon, where the LLM can inadvertently recover information from the
original diffusion prompt. We analyze the causes of this leakage and propose a
mitigation strategy. Based on these insights, we explore a simple fusion
strategy that utilizes both CLIP and conditional diffusion features. We
evaluate our approach on both general VQA and specialized MLLM benchmarks,
demonstrating the promise of diffusion models for visual understanding,
particularly in vision-centric tasks that require spatial and compositional
reasoning. Our project page can be found
https://vatsalag99.github.io/mustafar/.