Онлайн-самокалибровка для борьбы с галлюцинациями в визуально-языковых моделях

Аннотация

Крупные визуально-языковые модели (LVLM) часто страдают от галлюцинаций, генерируя описания, включающие визуальные детали, отсутствующие во входном изображении. Современные методы согласования предпочтений обычно полагаются на разметку, полученную от более мощных моделей, таких как GPT. Однако этот офлайн-подход порождает **рассогласование между контролем и восприятием**: студенческая модель вынуждена соответствовать мелкозернистым деталям, выходящим за пределы её перцептивных возможностей, обучаясь угадывать, а не видеть. Для получения надежного самоконтроля в режиме онлайн-обучения мы выявляем **генеративно-дискриминативный разрыв** в LVLM, где модели демонстрируют более высокую точность при дискриминативной проверке, чем при генерации с открытым концом. Используя эту возможность, мы предлагаем **OSCAR (Online Self-CAlibRation)** — фреймворк, который интегрирует поиск по дереву Монте-Карло с механизмом вознаграждения двойной гранулярности для построения данных о предпочтениях и итеративно улучшает модель с помощью прямой оптимизации предпочтений. Многочисленные эксперименты показывают, что OSCAR достигает наилучших результатов в тестах на галлюцинации, одновременно улучшая общие мультимодальные способности.

English

Large Vision-Language Models (LVLMs) often suffer from hallucinations, generating descriptions that include visual details absent from the input image. Recent preference alignment methods typically rely on supervision distilled from stronger models such as GPT. However, this offline paradigm introduces a Supervision-Perception Mismatch: the student model is forced to align with fine-grained details beyond its perceptual capacity, learning to guess rather than to see. To obtain reliable self-supervision for online learning, we identify a Generative-Discriminative Gap within LVLMs, where models exhibit higher accuracy on discriminative verification than open-ended generation. Leveraging this capability, we propose Online Self-CAlibRation (OSCAR), a framework that integrates Monte Carlo Tree Search with a Dual-Granularity Reward Mechanism to construct preference data and iteratively refines the model via Direct Preference Optimization. Extensive experiments demonstrate that OSCAR achieves state-of-the-art performance on hallucination benchmarks while improving general multimodal capabilities.

Онлайн-самокалибровка для борьбы с галлюцинациями в визуально-языковых моделях

Online Self-Calibration Against Hallucination in Vision-Language Models

Аннотация

Support