Allineamento Linguaggio-Immagine con Encoder di Testo Fissi
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Autori: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Abstract
Attualmente, l'approccio più dominante per stabilire l'allineamento tra linguaggio e immagine consiste nel pre-addestrare congiuntamente encoder di testo e immagine attraverso l'apprendimento contrastivo, come nel caso di CLIP e delle sue varianti. In questo lavoro, ci chiediamo se un tale addestramento congiunto così costoso sia davvero necessario. In particolare, investigiamo se un modello linguistico pre-addestrato e fissato di grandi dimensioni (LLM) possa offrire un encoder di testo sufficientemente buono per guidare l'apprendimento delle rappresentazioni visive. Proponiamo quindi di apprendere l'allineamento Linguaggio-Immagine con un Encoder di Testo Fisso (LIFT) da un LLM, addestrando solo l'encoder di immagine. Sorprendentemente, attraverso benchmarking completi e studi di ablazione, scopriamo che questo framework semplificato LIFT è altamente efficace e supera CLIP nella maggior parte degli scenari che coinvolgono la comprensione compositiva e didascalie lunghe, ottenendo al contempo notevoli guadagni in termini di efficienza computazionale. Il nostro lavoro rappresenta un primo passo verso l'esplorazione sistematica di come gli embedding di testo provenienti da LLM possano guidare l'apprendimento visivo e suggerisce una scelta progettuale alternativa per l'apprendimento di rappresentazioni visive allineate al linguaggio.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.