ChatPaper.aiChatPaper

Симметричная визуальная контрастная оптимизация: согласование моделей "визуальный язык" с минимальным количеством контрастных изображений

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

February 19, 2025
Авторы: Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
cs.AI

Аннотация

Недавние исследования показали, что крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), склонны игнорировать содержание изображений и чрезмерно полагаться на априорные знания языковых моделей, что приводит к ошибкам в задачах, требующих визуального обоснования, и к галлюцинациям. Мы предполагаем, что эта проблема возникает из-за того, что существующие VLMs не обучаются явно генерировать тексты, точно основанные на деталях изображений. Для усиления визуальной обратной связи в процессе обучения VLMs мы предлагаем S-VCO (Symmetrical Visual Contrastive Optimization, Симметричная визуальная контрастная оптимизация) — новый метод тонкой настройки, который направляет модель на захват важных визуальных деталей и их согласование с соответствующими текстовыми токенами. Для дальнейшего облегчения этого детального согласования мы представляем MVC — парный набор данных изображений и текстов, созданный путем автоматической фильтрации и дополнения визуальных контрфактических данных, чтобы бросить вызов модели сложными контрастными случаями, включающими Минимальные Визуальные Контрасты. Эксперименты показывают, что наш метод последовательно улучшает производительность VLMs на различных тестах, охватывающих различные способности и области, достигая снижения галлюцинаций до 22% и значительного прогресса в визуально-центрированных и общих задачах. Примечательно, что эти улучшения становятся все более выраженными в тестах с более высокой визуальной зависимостью. Вкратце, S-VCO предлагает значительное улучшение производительности VLMs в задачах, зависящих от визуальной информации, сохраняя или даже улучшая общие способности модели. Мы открываем исходный код по адресу https://s-vco.github.io/.
English
Recent studies have shown that Large Vision-Language Models (VLMs) tend to neglect image content and over-rely on language-model priors, resulting in errors in visually grounded tasks and hallucinations. We hypothesize that this issue arises because existing VLMs are not explicitly trained to generate texts that are accurately grounded in fine-grained image details. To enhance visual feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive Optimization), a novel finetuning objective that steers the model toward capturing important visual details and aligning them with corresponding text tokens. To further facilitate this detailed alignment, we introduce MVC, a paired image-text dataset built by automatically filtering and augmenting visual counterfactual data to challenge the model with hard contrastive cases involving Minimal Visual Contrasts. Experiments show that our method consistently improves VLM performance across diverse benchmarks covering various abilities and domains, achieving up to a 22% reduction in hallucinations, and significant gains in vision-centric and general tasks. Notably, these improvements become increasingly pronounced in benchmarks with higher visual dependency. In short, S-VCO offers a significant enhancement of VLM's visually-dependent task performance while retaining or even improving the model's general abilities. We opensource our code at https://s-vco.github.io/

Summary

AI-Generated Summary

PDF42February 21, 2025