다중 양식 이해를 위한 작업 인식 특징 추출기로서의 Stable Diffusion
Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
July 9, 2025
저자: Vatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 이미지 기반 질의응답 기능이 가능해졌다. 그러나 주요 한계점은 시각적 인코더로 CLIP을 사용하는 것인데, 이는 전체적인 정보를 포착할 수는 있지만 입력 질의와 관련된 세부적인 정보를 놓치는 경우가 많다. 이러한 단점을 해결하기 위해, 본 연구에서는 사전 학습된 텍스트-이미지 확산 모델이 명령어 인식 시각적 인코더로 사용될 수 있는지 여부를 탐구한다. 내부 표현 분석을 통해 확산 모델의 특징이 의미론적으로 풍부하며 강력한 이미지-텍스트 정렬을 인코딩할 수 있음을 발견했다. 또한, 텍스트 조건화를 통해 모델이 입력 질문과 관련된 영역에 집중하도록 할 수 있음을 확인했다. 이후 이러한 특징을 대형 언어 모델과 정렬하는 방법을 연구하며, LLM이 원래의 확산 프롬프트에서 의도치 않게 정보를 복구할 수 있는 누출 현상을 발견했다. 이 누출의 원인을 분석하고 이를 완화하기 위한 전략을 제안한다. 이러한 통찰을 바탕으로, CLIP과 조건부 확산 특징을 모두 활용하는 간단한 융합 전략을 탐구한다. 일반적인 VQA와 특화된 MLLM 벤치마크에서 우리의 접근 방식을 평가하며, 특히 공간적 및 구성적 추론이 필요한 시각 중심 작업에서 확산 모델의 시각적 이해에 대한 잠재력을 입증한다. 우리의 프로젝트 페이지는 https://vatsalag99.github.io/mustafar/에서 확인할 수 있다.
English
Recent advances in multimodal large language models (MLLMs) have enabled
image-based question-answering capabilities. However, a key limitation is the
use of CLIP as the visual encoder; while it can capture coarse global
information, it often can miss fine-grained details that are relevant to the
input query. To address these shortcomings, this work studies whether
pre-trained text-to-image diffusion models can serve as instruction-aware
visual encoders. Through an analysis of their internal representations, we find
diffusion features are both rich in semantics and can encode strong image-text
alignment. Moreover, we find that we can leverage text conditioning to focus
the model on regions relevant to the input question. We then investigate how to
align these features with large language models and uncover a leakage
phenomenon, where the LLM can inadvertently recover information from the
original diffusion prompt. We analyze the causes of this leakage and propose a
mitigation strategy. Based on these insights, we explore a simple fusion
strategy that utilizes both CLIP and conditional diffusion features. We
evaluate our approach on both general VQA and specialized MLLM benchmarks,
demonstrating the promise of diffusion models for visual understanding,
particularly in vision-centric tasks that require spatial and compositional
reasoning. Our project page can be found
https://vatsalag99.github.io/mustafar/.