ChatPaper.aiChatPaper

Sprach-Bild-Ausrichtung mit festen Text-Encodern

Language-Image Alignment with Fixed Text Encoders

June 4, 2025
Autoren: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI

Zusammenfassung

Derzeit ist der dominierende Ansatz zur Herstellung einer Sprach-Bild-Ausrichtung das gemeinsame Vortrainieren von Text- und Bildencodern durch kontrastives Lernen, wie beispielsweise CLIP und seine Varianten. In dieser Arbeit stellen wir die Frage, ob ein solch aufwendiges gemeinsames Training tatsächlich notwendig ist. Insbesondere untersuchen wir, ob ein vortrainiertes, festes großes Sprachmodell (LLM) einen ausreichend guten Textencoder bietet, um das Lernen visueller Repräsentationen zu steuern. Konkret schlagen wir vor, die Sprach-Bild-Ausrichtung mit einem festen Textencoder (LIFT) aus einem LLM zu lernen, indem nur der Bildencoder trainiert wird. Überraschenderweise zeigen umfassende Benchmarking- und Ablationsstudien, dass dieser stark vereinfachte Ansatz LIFT äußerst effektiv ist und CLIP in den meisten Szenarien, die das Verständnis von Kompositionen und lange Bildbeschreibungen betreffen, übertrifft, während gleichzeitig erhebliche Verbesserungen in der Recheneffizienz erzielt werden. Unsere Arbeit ist ein erster Schritt zur systematischen Erforschung, wie Text-Embeddings aus LLMs das visuelle Lernen leiten können, und schlägt eine alternative Designentscheidung für das Lernen sprachausgerichteter visueller Repräsentationen vor.
English
Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.
PDF106June 6, 2025