Выравнивание языка и изображений с фиксированными текстовыми кодировщиками
Language-Image Alignment with Fixed Text Encoders
June 4, 2025
Авторы: Jingfeng Yang, Ziyang Wu, Yue Zhao, Yi Ma
cs.AI
Аннотация
В настоящее время наиболее распространённый подход к установлению согласованности между языком и изображением заключается в совместном предварительном обучении текстовых и визуальных кодировщиков с использованием контрастивного обучения, как в случае CLIP и его вариантов. В данной работе мы задаёмся вопросом, действительно ли такое затратное совместное обучение необходимо. В частности, мы исследуем, может ли предварительно обученная фиксированная большая языковая модель (LLM) служить достаточно хорошим текстовым кодировщиком для управления обучением визуальных представлений. Мы предлагаем метод обучения согласованности языка и изображения с фиксированным текстовым кодировщиком (LIFT) из LLM, обучая только визуальный кодировщик. Неожиданно, но в результате всестороннего тестирования и анализа мы обнаруживаем, что этот значительно упрощённый подход LIFT оказывается чрезвычайно эффективным. Он превосходит CLIP в большинстве сценариев, связанных с композиционным пониманием и длинными описаниями, одновременно обеспечивая значительный выигрыш в вычислительной эффективности. Наша работа делает первый шаг к систематическому изучению того, как текстовые эмбеддинги из LLM могут направлять визуальное обучение, и предлагает альтернативный вариант проектирования для обучения визуальных представлений, согласованных с языком.
English
Currently, the most dominant approach to establishing language-image
alignment is to pre-train text and image encoders jointly through contrastive
learning, such as CLIP and its variants. In this work, we question whether such
a costly joint training is necessary. In particular, we investigate if a
pre-trained fixed large language model (LLM) offers a good enough text encoder
to guide visual representation learning. That is, we propose to learn
Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by
training only the image encoder. Somewhat surprisingly, through comprehensive
benchmarking and ablation studies, we find that this much simplified framework
LIFT is highly effective and it outperforms CLIP in most scenarios that involve
compositional understanding and long captions, while achieving considerable
gains in computational efficiency. Our work takes a first step towards
systematically exploring how text embeddings from LLMs can guide visual
learning and suggests an alternative design choice for learning
language-aligned visual representations.