Minderung von Objekthalluzinationen durch frühzeitige Intervention auf Satzebene
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
papers.authors: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) haben das cross-modale Verständnis revolutioniert, kämpfen jedoch weiterhin mit Halluzinationen – fabrizierten Inhalten, die visuellen Eingaben widersprechen. Bisherige Methoden zur Minderung von Halluzinationen verursachen entweder prohibitive Rechenkosten oder führen zu Verteilungsunterschieden zwischen Trainingsdaten und Modellausgaben. Wir identifizieren eine entscheidende Erkenntnis: Halluzinationen entstehen überwiegend in den frühen Phasen der Textgenerierung und pflanzen sich durch nachfolgende Ausgaben fort. Um dies zu adressieren, schlagen wir **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning) vor, ein Framework, das die Abhängigkeit von menschlichen Annotationen beseitigt. Konkret bootstrappen wir zunächst hochwertige Präferenzpaare innerhalb der Domäne, indem wir Modellausgaben iterativ sammeln, die Existenz von Objekten durch Abgleich mit zwei Open-Vocabulary-Detektoren validieren und Sätze in halluzinierte/nicht halluzinierte Kategorien einteilen. Anschließend nutzen wir kontextkohärente positive Proben und halluzinierte negative Proben, um iterativ kontextbewusste Präferenzdaten aufzubauen. Schließlich trainieren wir Modelle mit einem kontextbewussten Präferenzverlust (C-DPO), der diskriminatives Lernen auf Satzebene betont, wo Halluzinationen zunächst auftreten. Experimentelle Ergebnisse zeigen, dass SENTINEL Halluzinationen um über 90\% im Vergleich zum ursprünglichen Modell reduzieren kann und die bisherige State-of-the-Art-Methode sowohl bei Halluzinations-Benchmarks als auch bei allgemeinen Fähigkeits-Benchmarks übertrifft, was seine Überlegenheit und Generalisierungsfähigkeit demonstriert. Die Modelle, Datensätze und der Code sind unter https://github.com/pspdada/SENTINEL verfügbar.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.