ChatPaper.aiChatPaper

Alinhamento de Linguagem-Imagem com Codificadores de Texto Fixos

Language-Image Alignment with Fixed Text Encoders

June 4, 2025
Autores: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI

Resumo

Atualmente, a abordagem mais dominante para estabelecer o alinhamento entre linguagem e imagem é pré-treinar codificadores de texto e imagem conjuntamente por meio de aprendizado contrastivo, como o CLIP e suas variantes. Neste trabalho, questionamos se um treinamento conjunto tão custoso é realmente necessário. Em particular, investigamos se um modelo de linguagem grande (LLM) pré-treinado e fixo oferece um codificador de texto suficientemente bom para guiar o aprendizado de representações visuais. Ou seja, propomos aprender o alinhamento entre Linguagem e Imagem com um Codificador de Texto Fixo (LIFT) de um LLM, treinando apenas o codificador de imagem. Surpreendentemente, por meio de avaliações abrangentes e estudos de ablação, descobrimos que essa estrutura muito simplificada, o LIFT, é altamente eficaz e supera o CLIP na maioria dos cenários que envolvem compreensão composicional e legendas longas, ao mesmo tempo que alcança ganhos consideráveis em eficiência computacional. Nosso trabalho dá um primeiro passo na exploração sistemática de como embeddings de texto de LLMs podem guiar o aprendizado visual e sugere uma escolha de projeto alternativa para aprender representações visuais alinhadas com a linguagem.
English
Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
PDF116December 4, 2025