Alineación de Lenguaje e Imagen con Codificadores de Texto Fijos
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Autores: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Resumen
Actualmente, el enfoque más dominante para establecer la alineación entre lenguaje e imagen consiste en preentrenar conjuntamente codificadores de texto e imagen mediante aprendizaje contrastivo, como CLIP y sus variantes. En este trabajo, cuestionamos si un entrenamiento conjunto tan costoso es realmente necesario. En particular, investigamos si un modelo de lenguaje grande (LLM) preentrenado y fijo ofrece un codificador de texto lo suficientemente bueno para guiar el aprendizaje de representaciones visuales. Es decir, proponemos aprender la alineación entre lenguaje e imagen con un codificador de texto fijo (LIFT) proveniente de un LLM, entrenando únicamente el codificador de imagen. Sorprendentemente, a través de evaluaciones exhaustivas y estudios de ablación, encontramos que este marco simplificado, LIFT, es altamente efectivo y supera a CLIP en la mayoría de los escenarios que involucran comprensión composicional y descripciones largas, al mismo tiempo que logra ganancias considerables en eficiencia computacional. Nuestro trabajo da un primer paso hacia la exploración sistemática de cómo las incrustaciones de texto de LLMs pueden guiar el aprendizaje visual y sugiere una alternativa de diseño para aprender representaciones visuales alineadas con el lenguaje.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.