ChatPaper.aiChatPaper

Alignement Langage-Image avec Encodeurs de Texte Fixes

Language-Image Alignment with Fixed Text Encoders

June 4, 2025
Auteurs: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI

Résumé

Actuellement, l'approche dominante pour établir l'alignement entre le langage et l'image consiste à pré-entraîner conjointement des encodeurs de texte et d'image via un apprentissage contrastif, comme CLIP et ses variantes. Dans ce travail, nous nous interrogeons sur la nécessité d'un tel entraînement conjoint coûteux. En particulier, nous examinons si un modèle de langage massif (LLM) pré-entraîné et fixé offre un encodeur de texte suffisamment performant pour guider l'apprentissage des représentations visuelles. Autrement dit, nous proposons d'apprendre l'alignement Langage-Image avec un Encodeur de Texte Fixe (LIFT) issu d'un LLM en entraînant uniquement l'encodeur d'image. De manière quelque peu surprenante, à travers des études de référence et d'ablation approfondies, nous constatons que ce cadre simplifié LIFT est très efficace et surpasse CLIP dans la plupart des scénarios impliquant une compréhension compositionnelle et des descriptions longues, tout en réalisant des gains considérables en efficacité computationnelle. Notre travail représente une première étape vers l'exploration systématique de la manière dont les embeddings textuels issus des LLM peuvent guider l'apprentissage visuel et suggère une alternative de conception pour l'apprentissage de représentations visuelles alignées sur le langage.
English
Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
PDF106June 6, 2025