Het verminderen van objecthallucinaties via vroegtijdige interventie op zinsniveau
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
Auteurs: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
Samenvatting
Multimodale grote taalmodellen (MLLMs) hebben een revolutie teweeggebracht in het begrip van cross-modale gegevens, maar blijven worstelen met hallucinaties - verzonnen inhoud die in tegenspraak is met visuele invoer. Bestaande methoden om hallucinaties te verminderen, brengen ofwel onoverkomelijke rekenkosten met zich mee, of introduceren distributieverschillen tussen trainingsdata en modeluitvoer. Wij identificeren een cruciaal inzicht: hallucinaties ontstaan voornamelijk in de vroege fasen van tekstgeneratie en verspreiden zich via daaropvolgende uitvoer. Om dit aan te pakken, stellen we **SENTINEL** voor (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), een raamwerk dat de afhankelijkheid van menselijke annotaties elimineert. Specifiek bootstrappen we eerst hoogwaardige voorkeursparen binnen het domein door iteratief modeluitvoer te bemonsteren, het bestaan van objecten te valideren door kruiscontrole met twee open-vocabulary detectoren, en zinnen te classificeren in hallucinatie/niet-hallucinatie categorieën. Vervolgens gebruiken we context-coherente positieve voorbeelden en hallucinerende negatieve voorbeelden om iteratief contextbewuste voorkeursdata op te bouwen. Ten slotte trainen we modellen met een contextbewust voorkeursverlies (C-DPO) dat discriminatief leren benadrukt op zinsniveau, waar hallucinaties aanvankelijk ontstaan. Experimentele resultaten tonen aan dat SENTINEL hallucinaties met meer dan 90\% kan verminderen in vergelijking met het oorspronkelijke model en de vorige state-of-the-art methode overtreft op zowel hallucinatiebenchmarks als algemene capaciteitenbenchmarks, wat de superioriteit en generalisatievermogen aantoont. De modellen, datasets en code zijn beschikbaar op https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.