Alignement Langage-Image avec Encodeurs de Texte Fixes
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Auteurs: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Résumé
Actuellement, l'approche dominante pour établir l'alignement entre le langage et l'image consiste à pré-entraîner conjointement des encodeurs de texte et d'image via un apprentissage contrastif, comme CLIP et ses variantes. Dans ce travail, nous nous interrogeons sur la nécessité d'un tel entraînement conjoint coûteux. En particulier, nous examinons si un modèle de langage massif (LLM) pré-entraîné et fixé offre un encodeur de texte suffisamment performant pour guider l'apprentissage des représentations visuelles. Autrement dit, nous proposons d'apprendre l'alignement Langage-Image avec un Encodeur de Texte Fixe (LIFT) issu d'un LLM en entraînant uniquement l'encodeur d'image. De manière quelque peu surprenante, à travers des études de référence et d'ablation approfondies, nous constatons que ce cadre simplifié LIFT est très efficace et surpasse CLIP dans la plupart des scénarios impliquant une compréhension compositionnelle et des descriptions longues, tout en réalisant des gains considérables en efficacité computationnelle. Notre travail représente une première étape vers l'exploration systématique de la manière dont les embeddings textuels issus des LLM peuvent guider l'apprentissage visuel et suggère une alternative de conception pour l'apprentissage de représentations visuelles alignées sur le langage.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.