ChatPaper.aiChatPaper

Vers une compréhension multimodale via Stable Diffusion comme extracteur de caractéristiques adapté aux tâches

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor

July 9, 2025
papers.authors: Vatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava
cs.AI

papers.abstract

Les récentes avancées dans les modèles de langage multimodaux de grande échelle (MLLMs) ont permis des capacités de réponse à des questions basées sur des images. Cependant, une limitation majeure réside dans l'utilisation de CLIP comme encodeur visuel ; bien qu'il puisse capturer des informations globales approximatives, il manque souvent des détails fins pertinents pour la requête d'entrée. Pour remédier à ces lacunes, ce travail étudie si les modèles de diffusion pré-entraînés de texte à image peuvent servir d'encodeurs visuels sensibles aux instructions. À travers une analyse de leurs représentations internes, nous constatons que les caractéristiques de diffusion sont à la fois riches en sémantique et capables d'encoder un fort alignement image-texte. De plus, nous constatons que nous pouvons exploiter le conditionnement textuel pour focaliser le modèle sur les régions pertinentes à la question posée. Nous explorons ensuite comment aligner ces caractéristiques avec les modèles de langage de grande échelle et découvrons un phénomène de fuite, où le LLM peut récupérer involontairement des informations de l'invite de diffusion originale. Nous analysons les causes de cette fuite et proposons une stratégie d'atténuation. Sur la base de ces observations, nous explorons une stratégie de fusion simple qui utilise à la fois les caractéristiques de CLIP et de diffusion conditionnelle. Nous évaluons notre approche sur des benchmarks généraux de VQA et spécialisés de MLLM, démontrant le potentiel des modèles de diffusion pour la compréhension visuelle, en particulier dans les tâches centrées sur la vision qui nécessitent un raisonnement spatial et compositionnel. Notre page de projet est disponible à l'adresse https://vatsalag99.github.io/mustafar/.
English
Recent advances in multimodal large language models (MLLMs) have enabled image-based question-answering capabilities. However, a key limitation is the use of CLIP as the visual encoder; while it can capture coarse global information, it often can miss fine-grained details that are relevant to the input query. To address these shortcomings, this work studies whether pre-trained text-to-image diffusion models can serve as instruction-aware visual encoders. Through an analysis of their internal representations, we find diffusion features are both rich in semantics and can encode strong image-text alignment. Moreover, we find that we can leverage text conditioning to focus the model on regions relevant to the input question. We then investigate how to align these features with large language models and uncover a leakage phenomenon, where the LLM can inadvertently recover information from the original diffusion prompt. We analyze the causes of this leakage and propose a mitigation strategy. Based on these insights, we explore a simple fusion strategy that utilizes both CLIP and conditional diffusion features. We evaluate our approach on both general VQA and specialized MLLM benchmarks, demonstrating the promise of diffusion models for visual understanding, particularly in vision-centric tasks that require spatial and compositional reasoning. Our project page can be found https://vatsalag99.github.io/mustafar/.
PDF11July 10, 2025