ChatPaper.aiChatPaper

Следует ли предварительно обучать визуально-языковые модели на данных изображений?

Should VLMs be Pre-trained with Image Data?

March 10, 2025
Авторы: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI

Аннотация

Предварительно обученные большие языковые модели (LLM), которые дополнительно обучаются на данных изображений, демонстрируют высокую производительность в задачах, связанных с обработкой визуальной и текстовой информации. Хотя добавление изображений на втором этапе обучения эффективно раскрывает эту способность, остается неясным, насколько выигрыш или проигрыш дает такой двухэтапный подход по сравнению с моделями, интегрирующими изображения на более ранних этапах обучения. Чтобы исследовать этот вопрос, мы обучаем модели на различных наборах данных, масштабах, соотношениях изображений и текста, а также с разным объемом предварительного обучения перед введением визуальных токенов. Затем мы дообучаем эти модели и оцениваем их производительность на наборе задач, включающих как обработку визуальной и текстовой информации, так и исключительно текстовые задачи. Мы обнаруживаем, что предварительное обучение на смеси изображений и текстовых данных позволяет моделям лучше справляться с задачами, связанными с визуальной и текстовой информацией, сохраняя при этом высокую производительность на текстовых задачах. В среднем на 6 разнообразных задачах мы выясняем, что для модели объемом 1 млрд параметров введение визуальных токенов на 80% этапа предварительного обучения приводит к улучшению на 2% по сравнению с введением визуальных токенов в полностью предварительно обученную модель.
English
Pre-trained LLMs that are further trained with image data perform well on vision-language tasks. While adding images during a second training phase effectively unlocks this capability, it is unclear how much of a gain or loss this two-step pipeline gives over VLMs which integrate images earlier into the training process. To investigate this, we train models spanning various datasets, scales, image-text ratios, and amount of pre-training done before introducing vision tokens. We then fine-tune these models and evaluate their downstream performance on a suite of vision-language and text-only tasks. We find that pre-training with a mixture of image and text data allows models to perform better on vision-language tasks while maintaining strong performance on text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B model, introducing visual tokens 80% of the way through pre-training results in a 2% average improvement over introducing visual tokens to a fully pre-trained model.

Summary

AI-Generated Summary

PDF31March 11, 2025