Следует ли предварительно обучать визуально-языковые модели на данных изображений?
Should VLMs be Pre-trained with Image Data?
March 10, 2025
Авторы: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI
Аннотация
Предварительно обученные большие языковые модели (LLM), которые дополнительно обучаются на данных изображений, демонстрируют высокую производительность в задачах, связанных с обработкой визуальной и текстовой информации. Хотя добавление изображений на втором этапе обучения эффективно раскрывает эту способность, остается неясным, насколько выигрыш или проигрыш дает такой двухэтапный подход по сравнению с моделями, интегрирующими изображения на более ранних этапах обучения. Чтобы исследовать этот вопрос, мы обучаем модели на различных наборах данных, масштабах, соотношениях изображений и текста, а также с разным объемом предварительного обучения перед введением визуальных токенов. Затем мы дообучаем эти модели и оцениваем их производительность на наборе задач, включающих как обработку визуальной и текстовой информации, так и исключительно текстовые задачи. Мы обнаруживаем, что предварительное обучение на смеси изображений и текстовых данных позволяет моделям лучше справляться с задачами, связанными с визуальной и текстовой информацией, сохраняя при этом высокую производительность на текстовых задачах. В среднем на 6 разнообразных задачах мы выясняем, что для модели объемом 1 млрд параметров введение визуальных токенов на 80% этапа предварительного обучения приводит к улучшению на 2% по сравнению с введением визуальных токенов в полностью предварительно обученную модель.
English
Pre-trained LLMs that are further trained with image data perform well on
vision-language tasks. While adding images during a second training phase
effectively unlocks this capability, it is unclear how much of a gain or loss
this two-step pipeline gives over VLMs which integrate images earlier into the
training process. To investigate this, we train models spanning various
datasets, scales, image-text ratios, and amount of pre-training done before
introducing vision tokens. We then fine-tune these models and evaluate their
downstream performance on a suite of vision-language and text-only tasks. We
find that pre-training with a mixture of image and text data allows models to
perform better on vision-language tasks while maintaining strong performance on
text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B
model, introducing visual tokens 80% of the way through pre-training results in
a 2% average improvement over introducing visual tokens to a fully pre-trained
model.Summary
AI-Generated Summary