Minderung von Objekthalluzinationen durch frühzeitige Intervention auf Satzebene

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben das cross-modale Verständnis revolutioniert, kämpfen jedoch weiterhin mit Halluzinationen – fabrizierten Inhalten, die visuellen Eingaben widersprechen. Bisherige Methoden zur Minderung von Halluzinationen verursachen entweder prohibitive Rechenkosten oder führen zu Verteilungsunterschieden zwischen Trainingsdaten und Modellausgaben. Wir identifizieren eine entscheidende Erkenntnis: Halluzinationen entstehen überwiegend in den frühen Phasen der Textgenerierung und pflanzen sich durch nachfolgende Ausgaben fort. Um dies zu adressieren, schlagen wir **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning) vor, ein Framework, das die Abhängigkeit von menschlichen Annotationen beseitigt. Konkret bootstrappen wir zunächst hochwertige Präferenzpaare innerhalb der Domäne, indem wir Modellausgaben iterativ sammeln, die Existenz von Objekten durch Abgleich mit zwei Open-Vocabulary-Detektoren validieren und Sätze in halluzinierte/nicht halluzinierte Kategorien einteilen. Anschließend nutzen wir kontextkohärente positive Proben und halluzinierte negative Proben, um iterativ kontextbewusste Präferenzdaten aufzubauen. Schließlich trainieren wir Modelle mit einem kontextbewussten Präferenzverlust (C-DPO), der diskriminatives Lernen auf Satzebene betont, wo Halluzinationen zunächst auftreten. Experimentelle Ergebnisse zeigen, dass SENTINEL Halluzinationen um über 90\% im Vergleich zum ursprünglichen Modell reduzieren kann und die bisherige State-of-the-Art-Methode sowohl bei Halluzinations-Benchmarks als auch bei allgemeinen Fähigkeits-Benchmarks übertrifft, was seine Überlegenheit und Generalisierungsfähigkeit demonstriert. Die Modelle, Datensätze und der Code sind unter https://github.com/pspdada/SENTINEL verfügbar.

English

Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.

Minderung von Objekthalluzinationen durch frühzeitige Intervention auf Satzebene

Mitigating Object Hallucinations via Sentence-Level Early Intervention

papers.abstract

Support