Het verminderen van objecthallucinaties via vroegtijdige interventie op zinsniveau

Samenvatting

Multimodale grote taalmodellen (MLLMs) hebben een revolutie teweeggebracht in het begrip van cross-modale gegevens, maar blijven worstelen met hallucinaties - verzonnen inhoud die in tegenspraak is met visuele invoer. Bestaande methoden om hallucinaties te verminderen, brengen ofwel onoverkomelijke rekenkosten met zich mee, of introduceren distributieverschillen tussen trainingsdata en modeluitvoer. Wij identificeren een cruciaal inzicht: hallucinaties ontstaan voornamelijk in de vroege fasen van tekstgeneratie en verspreiden zich via daaropvolgende uitvoer. Om dit aan te pakken, stellen we **SENTINEL** voor (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), een raamwerk dat de afhankelijkheid van menselijke annotaties elimineert. Specifiek bootstrappen we eerst hoogwaardige voorkeursparen binnen het domein door iteratief modeluitvoer te bemonsteren, het bestaan van objecten te valideren door kruiscontrole met twee open-vocabulary detectoren, en zinnen te classificeren in hallucinatie/niet-hallucinatie categorieën. Vervolgens gebruiken we context-coherente positieve voorbeelden en hallucinerende negatieve voorbeelden om iteratief contextbewuste voorkeursdata op te bouwen. Ten slotte trainen we modellen met een contextbewust voorkeursverlies (C-DPO) dat discriminatief leren benadrukt op zinsniveau, waar hallucinaties aanvankelijk ontstaan. Experimentele resultaten tonen aan dat SENTINEL hallucinaties met meer dan 90\% kan verminderen in vergelijking met het oorspronkelijke model en de vorige state-of-the-art methode overtreft op zowel hallucinatiebenchmarks als algemene capaciteitenbenchmarks, wat de superioriteit en generalisatievermogen aantoont. De modellen, datasets en code zijn beschikbaar op https://github.com/pspdada/SENTINEL.

English

Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.

Het verminderen van objecthallucinaties via vroegtijdige interventie op zinsniveau

Mitigating Object Hallucinations via Sentence-Level Early Intervention

Samenvatting

Support