ChatPaper.aiChatPaper

Taal-Beelduitlijning met Vaste Tekstencoders

Language-Image Alignment with Fixed Text Encoders

June 4, 2025
Auteurs: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI

Samenvatting

Momenteel is de meest dominante benadering voor het vaststellen van taal-beeldafstemming het gezamenlijk vooraf trainen van tekst- en beeldencoders via contrastief leren, zoals CLIP en zijn varianten. In dit werk stellen we de vraag of zo'n kostbare gezamenlijke training wel noodzakelijk is. In het bijzonder onderzoeken we of een vooraf getraind vast groot taalmodel (LLM) een goede genoeg tekstencoder biedt om visuele representatieleiding te geven. Dat wil zeggen, we stellen voor om taal-beeldafstemming te leren met een vaste tekstencoder (LIFT) van een LLM door alleen de beeldencoder te trainen. Enigszins verrassend blijkt uit uitgebreide benchmark- en ablatiestudies dat dit sterk vereenvoudigde framework LIFT zeer effectief is en CLIP overtreft in de meeste scenario's die compositieel begrip en lange bijschriften betreffen, terwijl het aanzienlijke winsten in rekenkundige efficiëntie behaalt. Ons werk zet een eerste stap naar het systematisch verkennen van hoe tekstembeddingen van LLM's visueel leren kunnen begeleiden en suggereert een alternatieve ontwerpkeuze voor het leren van taalafgestemde visuele representaties.
English
Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
PDF116June 6, 2025