Симметричная визуальная контрастная оптимизация: согласование моделей "визуальный язык" с минимальным количеством контрастных изображений
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images
February 19, 2025
Авторы: Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
cs.AI
Аннотация
Недавние исследования показали, что крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), склонны игнорировать содержание изображений и чрезмерно полагаться на априорные знания языковых моделей, что приводит к ошибкам в задачах, требующих визуального обоснования, и к галлюцинациям. Мы предполагаем, что эта проблема возникает из-за того, что существующие VLMs не обучаются явно генерировать тексты, точно основанные на деталях изображений. Для усиления визуальной обратной связи в процессе обучения VLMs мы предлагаем S-VCO (Symmetrical Visual Contrastive Optimization, Симметричная визуальная контрастная оптимизация) — новый метод тонкой настройки, который направляет модель на захват важных визуальных деталей и их согласование с соответствующими текстовыми токенами. Для дальнейшего облегчения этого детального согласования мы представляем MVC — парный набор данных изображений и текстов, созданный путем автоматической фильтрации и дополнения визуальных контрфактических данных, чтобы бросить вызов модели сложными контрастными случаями, включающими Минимальные Визуальные Контрасты. Эксперименты показывают, что наш метод последовательно улучшает производительность VLMs на различных тестах, охватывающих различные способности и области, достигая снижения галлюцинаций до 22% и значительного прогресса в визуально-центрированных и общих задачах. Примечательно, что эти улучшения становятся все более выраженными в тестах с более высокой визуальной зависимостью. Вкратце, S-VCO предлагает значительное улучшение производительности VLMs в задачах, зависящих от визуальной информации, сохраняя или даже улучшая общие способности модели. Мы открываем исходный код по адресу https://s-vco.github.io/.
English
Recent studies have shown that Large Vision-Language Models (VLMs) tend to
neglect image content and over-rely on language-model priors, resulting in
errors in visually grounded tasks and hallucinations. We hypothesize that this
issue arises because existing VLMs are not explicitly trained to generate texts
that are accurately grounded in fine-grained image details. To enhance visual
feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive
Optimization), a novel finetuning objective that steers the model toward
capturing important visual details and aligning them with corresponding text
tokens. To further facilitate this detailed alignment, we introduce MVC, a
paired image-text dataset built by automatically filtering and augmenting
visual counterfactual data to challenge the model with hard contrastive cases
involving Minimal Visual Contrasts. Experiments show that our method
consistently improves VLM performance across diverse benchmarks covering
various abilities and domains, achieving up to a 22% reduction in
hallucinations, and significant gains in vision-centric and general tasks.
Notably, these improvements become increasingly pronounced in benchmarks with
higher visual dependency. In short, S-VCO offers a significant enhancement of
VLM's visually-dependent task performance while retaining or even improving the
model's general abilities. We opensource our code at https://s-vco.github.io/Summary
AI-Generated Summary