Mitigare le allucinazioni degli oggetti mediante interventi precisi a livello di frase
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
Autori: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno rivoluzionato la comprensione cross-modale, ma continuano a lottare con le allucinazioni - contenuti fabbricati che contraddicono gli input visivi. I metodi esistenti per mitigare le allucinazioni comportano costi computazionali proibitivi o introducono discrepanze distributive tra i dati di addestramento e gli output del modello. Identifichiamo un'osservazione cruciale: le allucinazioni emergono prevalentemente nelle fasi iniziali della generazione del testo e si propagano attraverso gli output successivi. Per affrontare questo problema, proponiamo **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un framework che elimina la dipendenza dalle annotazioni umane. Nello specifico, inizialmente generiamo coppie di preferenze di alta qualità nel dominio iterativamente campionando gli output del modello, validando l'esistenza degli oggetti attraverso un controllo incrociato con due rilevatori open-vocabulary e classificando le frasi in categorie allucinate/non allucinate. Successivamente, utilizziamo campioni positivi coerenti con il contesto e campioni negativi allucinati per costruire iterativamente dati di preferenza consapevoli del contesto. Infine, addestriamo i modelli utilizzando una funzione di perdita di preferenza consapevole del contesto (C-DPO) che enfatizza l'apprendimento discriminativo a livello di frase, dove le allucinazioni si manifestano inizialmente. I risultati sperimentali mostrano che SENTINEL può ridurre le allucinazioni di oltre il 90\% rispetto al modello originale e supera il precedente metodo state-of-the-art sia nei benchmark sulle allucinazioni che nei benchmark sulle capacità generali, dimostrando la sua superiorità e capacità di generalizzazione. I modelli, i dataset e il codice sono disponibili su https://github.com/pspdada/SENTINEL.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.