비전-언어-비전 자동 인코더: 확산 모델로부터의 확장 가능한 지식 증류
Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
July 9, 2025
저자: Tiezheng Zhang, Yitong Li, Yu-cheng Chou, Jieneng Chen, Alan Yuille, Chen Wei, Junfei Xiao
cs.AI
초록
최첨단 시각-언어 모델(Vision-Language Models, VLMs)을 구축하고 강력한 캡션 생성 능력을 갖추기 위해서는 일반적으로 수십억 개의 고품질 이미지-텍스트 쌍을 수백만 GPU 시간 동안 학습해야 합니다. 본 논문에서는 시각 인코더, 텍스트-이미지(T2I) 확산 모델의 디코더, 그리고 대형 언어 모델(Large Language Model, LLM)과 같은 주요 사전 학습된 구성 요소를 전략적으로 활용하는 시각-언어-시각(Vision-Language-Vision, VLV) 자동 인코더 프레임워크를 소개합니다. 구체적으로, 우리는 사전 학습된 T2I 확산 디코더를 고정함으로써 언어 표현 공간을 정규화하여 정보 병목 현상을 설정합니다. 우리의 VLV 파이프라인은 연속 임베딩을 통해 텍스트 조건부 확산 모델로부터 지식을 효과적으로 추출하며, 고품질 재구성을 통해 포괄적인 의미 이해를 입증합니다. 더 나아가, 사전 학습된 LLM을 미세 조정하여 중간 언어 표현을 상세한 설명으로 디코딩함으로써 GPT-4o 및 Gemini 2.0 Flash와 같은 선두 모델에 필적하는 최첨단 캡션 생성기를 구축합니다. 우리의 방법은 탁월한 비용 효율성을 보여주며 데이터 요구 사항을 크게 줄입니다; 주로 단일 모드 이미지를 학습에 활용하고 기존 사전 학습 모델(이미지 인코더, T2I 확산 모델, LLM)의 유용성을 극대화함으로써 대규모 이미지-텍스트 쌍 데이터셋의 필요성을 피하고, 전체 학습 비용을 1,000달러 미만으로 유지합니다.
English
Building state-of-the-art Vision-Language Models (VLMs) with strong
captioning capabilities typically necessitates training on billions of
high-quality image-text pairs, requiring millions of GPU hours. This paper
introduces the Vision-Language-Vision (VLV) auto-encoder framework, which
strategically leverages key pretrained components: a vision encoder, the
decoder of a Text-to-Image (T2I) diffusion model, and subsequently, a Large
Language Model (LLM). Specifically, we establish an information bottleneck by
regularizing the language representation space, achieved through freezing the
pretrained T2I diffusion decoder. Our VLV pipeline effectively distills
knowledge from the text-conditioned diffusion model using continuous
embeddings, demonstrating comprehensive semantic understanding via high-quality
reconstructions. Furthermore, by fine-tuning a pretrained LLM to decode the
intermediate language representations into detailed descriptions, we construct
a state-of-the-art (SoTA) captioner comparable to leading models like GPT-4o
and Gemini 2.0 Flash. Our method demonstrates exceptional cost-efficiency and
significantly reduces data requirements; by primarily utilizing single-modal
images for training and maximizing the utility of existing pretrained models
(image encoder, T2I diffusion model, and LLM), it circumvents the need for
massive paired image-text datasets, keeping the total training expenditure
under $1,000 USD.