Sprach-Bild-Ausrichtung mit festen Text-Encodern
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Autoren: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Zusammenfassung
Derzeit ist der dominierende Ansatz zur Herstellung einer Sprach-Bild-Ausrichtung das gemeinsame Vortrainieren von Text- und Bildencodern durch kontrastives Lernen, wie beispielsweise CLIP und seine Varianten. In dieser Arbeit stellen wir die Frage, ob ein solch aufwendiges gemeinsames Training tatsächlich notwendig ist. Insbesondere untersuchen wir, ob ein vortrainiertes, festes großes Sprachmodell (LLM) einen ausreichend guten Textencoder bietet, um das Lernen visueller Repräsentationen zu steuern. Konkret schlagen wir vor, die Sprach-Bild-Ausrichtung mit einem festen Textencoder (LIFT) aus einem LLM zu lernen, indem nur der Bildencoder trainiert wird. Überraschenderweise zeigen umfassende Benchmarking- und Ablationsstudien, dass dieser stark vereinfachte Ansatz LIFT äußerst effektiv ist und CLIP in den meisten Szenarien, die das Verständnis von Kompositionen und lange Bildbeschreibungen betreffen, übertrifft, während gleichzeitig erhebliche Verbesserungen in der Recheneffizienz erzielt werden. Unsere Arbeit ist ein erster Schritt zur systematischen Erforschung, wie Text-Embeddings aus LLMs das visuelle Lernen leiten können, und schlägt eine alternative Designentscheidung für das Lernen sprachausgerichteter visueller Repräsentationen vor.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.