Снижение галлюцинаций объектов посредством раннего вмешательства на уровне предложений
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
Авторы: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLM) произвели революцию в кросс-модальном понимании, но продолжают сталкиваться с проблемой галлюцинаций — созданием вымышленного контента, противоречащего визуальным данным. Существующие методы смягчения галлюцинаций либо требуют непомерных вычислительных затрат, либо приводят к несоответствиям распределений между обучающими данными и выходами модели. Мы выявили ключевое наблюдение: галлюцинации преимущественно возникают на ранних этапах генерации текста и распространяются на последующие выходы. Для решения этой проблемы мы предлагаем **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning) — фреймворк, который устраняет зависимость от аннотаций человека. В частности, мы сначала создаем высококачественные пары предпочтений в домене, итеративно выбирая выходы модели, проверяя существование объектов с помощью двух детекторов с открытым словарем и классифицируя предложения на галлюцинированные и негаллюцинированные. Затем мы используем контекстно-согласованные положительные образцы и галлюцинированные отрицательные образцы для итеративного построения контекстно-осознанных данных предпочтений. Наконец, мы обучаем модели с использованием контекстно-осознанной функции потерь предпочтений (C-DPO), которая подчеркивает дискриминативное обучение на уровне предложений, где галлюцинации изначально проявляются. Экспериментальные результаты показывают, что SENTINEL может снизить галлюцинации более чем на 90\% по сравнению с исходной моделью и превосходит предыдущий метод, являющийся state-of-the-art, как на бенчмарках галлюцинаций, так и на общих бенчмарках возможностей, демонстрируя свое превосходство и способность к обобщению. Модели, наборы данных и код доступны по адресу https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.