Atténuer les hallucinations d'objets via une intervention précoce au niveau de la phrase
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
papers.authors: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) ont révolutionné la compréhension intermodale mais continuent de lutter contre les hallucinations - des contenus fabriqués qui contredisent les entrées visuelles. Les méthodes existantes d'atténuation des hallucinations entraînent soit des coûts de calcul prohibitifs, soit introduisent des décalages de distribution entre les données d'entraînement et les sorties du modèle. Nous identifions une observation cruciale : les hallucinations apparaissent principalement aux premiers stades de la génération de texte et se propagent dans les sorties ultérieures. Pour résoudre ce problème, nous proposons **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un cadre qui élimine la dépendance aux annotations humaines. Plus précisément, nous amorçons d'abord des paires de préférences de haute qualité dans le domaine en échantillonnant itérativement les sorties du modèle, en validant l'existence des objets par vérification croisée avec deux détecteurs à vocabulaire ouvert, et en classant les phrases en catégories hallucinées/non hallucinées. Ensuite, nous utilisons des échantillons positifs cohérents avec le contexte et des échantillons négatifs hallucinés pour construire itérativement des données de préférence sensibles au contexte. Enfin, nous entraînons les modèles en utilisant une fonction de perte de préférence sensible au contexte (C-DPO) qui met l'accent sur l'apprentissage discriminatif au niveau de la phrase où les hallucinations se manifestent initialement. Les résultats expérimentaux montrent que SENTINEL peut réduire les hallucinations de plus de 90\% par rapport au modèle original et surpasse la méthode précédente de pointe à la fois sur les benchmarks d'hallucinations et sur les benchmarks de capacités générales, démontrant ainsi sa supériorité et sa capacité de généralisation. Les modèles, les ensembles de données et le code sont disponibles à l'adresse https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.