Taal-Beelduitlijning met Vaste Tekstencoders
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Auteurs: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Samenvatting
Momenteel is de meest dominante benadering voor het vaststellen van taal-beeldafstemming het gezamenlijk vooraf trainen van tekst- en beeldencoders via contrastief leren, zoals CLIP en zijn varianten. In dit werk stellen we de vraag of zo'n kostbare gezamenlijke training wel noodzakelijk is. In het bijzonder onderzoeken we of een vooraf getraind vast groot taalmodel (LLM) een goede genoeg tekstencoder biedt om visuele representatieleiding te geven. Dat wil zeggen, we stellen voor om taal-beeldafstemming te leren met een vaste tekstencoder (LIFT) van een LLM door alleen de beeldencoder te trainen. Enigszins verrassend blijkt uit uitgebreide benchmark- en ablatiestudies dat dit sterk vereenvoudigde framework LIFT zeer effectief is en CLIP overtreft in de meeste scenario's die compositieel begrip en lange bijschriften betreffen, terwijl het aanzienlijke winsten in rekenkundige efficiëntie behaalt. Ons werk zet een eerste stap naar het systematisch verkennen van hoe tekstembeddingen van LLM's visueel leren kunnen begeleiden en suggereert een alternatieve ontwerpkeuze voor het leren van taalafgestemde visuele representaties.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.