Vision-Language-Vision Auto-Encoder: Skalierbare Wissensdistillation aus Diffusionsmodellen

papers.abstract

Die Entwicklung von hochmodernen Vision-Language-Modellen (VLMs) mit starken Bildbeschreibungsfähigkeiten erfordert in der Regel das Training mit Milliarden von hochwertigen Bild-Text-Paaren, was Millionen von GPU-Stunden in Anspruch nimmt. Dieses Papier stellt das Vision-Language-Vision (VLV)-Autoencoder-Framework vor, das strategisch auf Schlüsselkomponenten zurückgreift, die bereits vortrainiert wurden: einen Vision-Encoder, den Decoder eines Text-to-Image (T2I)-Diffusionsmodells und anschließend ein Large Language Model (LLM). Konkret schaffen wir einen Informationsengpass, indem wir den Sprachrepräsentationsraum regulieren, was durch das Einfrieren des vortrainierten T2I-Diffusionsdecoders erreicht wird. Unsere VLV-Pipeline destilliert effektiv Wissen aus dem textbedingten Diffusionsmodell unter Verwendung kontinuierlicher Embeddings und zeigt ein umfassendes semantisches Verständnis durch hochwertige Rekonstruktionen. Darüber hinaus konstruieren wir einen hochmodernen (SoTA) Bildbeschreiber, der mit führenden Modellen wie GPT-4o und Gemini 2.0 Flash vergleichbar ist, indem wir ein vortrainiertes LLM feinabstimmen, um die Zwischensprachrepräsentationen in detaillierte Beschreibungen zu dekodieren. Unser Ansatz zeigt eine außergewöhnliche Kosteneffizienz und reduziert den Datenbedarf erheblich; durch die primäre Nutzung von unimodalen Bildern für das Training und die Maximierung der Nutzung bestehender vortrainierter Modelle (Bild-Encoder, T2I-Diffusionsmodell und LLM) umgeht er die Notwendigkeit massiver gepaarter Bild-Text-Datensätze und hält die gesamten Trainingskosten unter 1.000 USD.

English

Building state-of-the-art Vision-Language Models (VLMs) with strong captioning capabilities typically necessitates training on billions of high-quality image-text pairs, requiring millions of GPU hours. This paper introduces the Vision-Language-Vision (VLV) auto-encoder framework, which strategically leverages key pretrained components: a vision encoder, the decoder of a Text-to-Image (T2I) diffusion model, and subsequently, a Large Language Model (LLM). Specifically, we establish an information bottleneck by regularizing the language representation space, achieved through freezing the pretrained T2I diffusion decoder. Our VLV pipeline effectively distills knowledge from the text-conditioned diffusion model using continuous embeddings, demonstrating comprehensive semantic understanding via high-quality reconstructions. Furthermore, by fine-tuning a pretrained LLM to decode the intermediate language representations into detailed descriptions, we construct a state-of-the-art (SoTA) captioner comparable to leading models like GPT-4o and Gemini 2.0 Flash. Our method demonstrates exceptional cost-efficiency and significantly reduces data requirements; by primarily utilizing single-modal images for training and maximizing the utility of existing pretrained models (image encoder, T2I diffusion model, and LLM), it circumvents the need for massive paired image-text datasets, keeping the total training expenditure under $1,000 USD.

Vision-Language-Vision Auto-Encoder: Skalierbare Wissensdistillation aus Diffusionsmodellen

Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models

papers.abstract

Support