Atténuer les hallucinations d'objets via une intervention précoce au niveau de la phrase

papers.abstract

Les modèles de langage multimodaux de grande taille (MLLMs) ont révolutionné la compréhension intermodale mais continuent de lutter contre les hallucinations - des contenus fabriqués qui contredisent les entrées visuelles. Les méthodes existantes d'atténuation des hallucinations entraînent soit des coûts de calcul prohibitifs, soit introduisent des décalages de distribution entre les données d'entraînement et les sorties du modèle. Nous identifions une observation cruciale : les hallucinations apparaissent principalement aux premiers stades de la génération de texte et se propagent dans les sorties ultérieures. Pour résoudre ce problème, nous proposons **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un cadre qui élimine la dépendance aux annotations humaines. Plus précisément, nous amorçons d'abord des paires de préférences de haute qualité dans le domaine en échantillonnant itérativement les sorties du modèle, en validant l'existence des objets par vérification croisée avec deux détecteurs à vocabulaire ouvert, et en classant les phrases en catégories hallucinées/non hallucinées. Ensuite, nous utilisons des échantillons positifs cohérents avec le contexte et des échantillons négatifs hallucinés pour construire itérativement des données de préférence sensibles au contexte. Enfin, nous entraînons les modèles en utilisant une fonction de perte de préférence sensible au contexte (C-DPO) qui met l'accent sur l'apprentissage discriminatif au niveau de la phrase où les hallucinations se manifestent initialement. Les résultats expérimentaux montrent que SENTINEL peut réduire les hallucinations de plus de 90\% par rapport au modèle original et surpasse la méthode précédente de pointe à la fois sur les benchmarks d'hallucinations et sur les benchmarks de capacités générales, démontrant ainsi sa supériorité et sa capacité de généralisation. Les modèles, les ensembles de données et le code sont disponibles à l'adresse https://github.com/pspdada/SENTINEL.

English

Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.

Atténuer les hallucinations d'objets via une intervention précoce au niveau de la phrase

Mitigating Object Hallucinations via Sentence-Level Early Intervention

papers.abstract

Support