Генерировать, но проверять: снижение галлюцинаций в моделях "визуальный язык" с помощью ретроспективной повторной выборки
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling
April 17, 2025
Авторы: Tsung-Han Wu, Heekyung Lee, Jiaxin Ge, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют высокие результаты в визуальном понимании, но часто страдают от визуальных галлюцинаций, когда они генерируют описания несуществующих объектов, действий или концепций, что создает значительные риски в критически важных для безопасности приложениях. Существующие методы снижения галлюцинаций обычно следуют одной из двух парадигм: корректировка генерации, которая изменяет поведение декодирования для согласования текста с визуальными данными, и постфактумная проверка, где внешние модели оценивают и исправляют выходные данные. Хотя эти методы эффективны, корректировка генерации часто опирается на эвристики и не имеет механизмов исправления, а постфактумная проверка является сложной, обычно требующей нескольких моделей и склонной к отклонению выходных данных, а не их уточнению. В данной работе мы представляем REVERSE — унифицированную структуру, которая интегрирует обучение с учетом галлюцинаций с оперативной самопроверкой. Используя новый набор данных для проверки галлюцинаций, содержащий более 1,3 млн полусинтетических образцов, а также новую технику ретроспективного повторного сэмплирования на этапе вывода, наш подход позволяет VLMs как обнаруживать галлюцинации в процессе генерации, так и динамически их исправлять. Наши оценки показывают, что REVERSE достигает наилучших результатов в снижении галлюцинаций, превосходя лучшие существующие методы на 12% на CHAIR-MSCOCO и на 28% на HaloQuest. Наш набор данных, модель и код доступны по адресу: https://reverse-vlm.github.io.
English
Vision-Language Models (VLMs) excel at visual understanding but often suffer
from visual hallucinations, where they generate descriptions of nonexistent
objects, actions, or concepts, posing significant risks in safety-critical
applications. Existing hallucination mitigation methods typically follow one of
two paradigms: generation adjustment, which modifies decoding behavior to align
text with visual inputs, and post-hoc verification, where external models
assess and correct outputs. While effective, generation adjustment methods
often rely on heuristics and lack correction mechanisms, while post-hoc
verification is complicated, typically requiring multiple models and tending to
reject outputs rather than refine them. In this work, we introduce REVERSE, a
unified framework that integrates hallucination-aware training with on-the-fly
self-verification. By leveraging a new hallucination-verification dataset
containing over 1.3M semi-synthetic samples, along with a novel inference-time
retrospective resampling technique, our approach enables VLMs to both detect
hallucinations during generation and dynamically revise those hallucinations.
Our evaluations show that REVERSE achieves state-of-the-art hallucination
reduction, outperforming the best existing methods by up to 12% on CHAIR-MSCOCO
and 28% on HaloQuest. Our dataset, model, and code are available at:
https://reverse-vlm.github.io.Summary
AI-Generated Summary