Mitigare le allucinazioni degli oggetti mediante interventi precisi a livello di frase

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno rivoluzionato la comprensione cross-modale, ma continuano a lottare con le allucinazioni - contenuti fabbricati che contraddicono gli input visivi. I metodi esistenti per mitigare le allucinazioni comportano costi computazionali proibitivi o introducono discrepanze distributive tra i dati di addestramento e gli output del modello. Identifichiamo un'osservazione cruciale: le allucinazioni emergono prevalentemente nelle fasi iniziali della generazione del testo e si propagano attraverso gli output successivi. Per affrontare questo problema, proponiamo **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), un framework che elimina la dipendenza dalle annotazioni umane. Nello specifico, inizialmente generiamo coppie di preferenze di alta qualità nel dominio iterativamente campionando gli output del modello, validando l'esistenza degli oggetti attraverso un controllo incrociato con due rilevatori open-vocabulary e classificando le frasi in categorie allucinate/non allucinate. Successivamente, utilizziamo campioni positivi coerenti con il contesto e campioni negativi allucinati per costruire iterativamente dati di preferenza consapevoli del contesto. Infine, addestriamo i modelli utilizzando una funzione di perdita di preferenza consapevole del contesto (C-DPO) che enfatizza l'apprendimento discriminativo a livello di frase, dove le allucinazioni si manifestano inizialmente. I risultati sperimentali mostrano che SENTINEL può ridurre le allucinazioni di oltre il 90\% rispetto al modello originale e supera il precedente metodo state-of-the-art sia nei benchmark sulle allucinazioni che nei benchmark sulle capacità generali, dimostrando la sua superiorità e capacità di generalizzazione. I modelli, i dataset e il codice sono disponibili su https://github.com/pspdada/SENTINEL.

English

Multimodal large language models (MLLMs) have revolutionized cross-modal understanding but continue to struggle with hallucinations - fabricated content contradicting visual inputs. Existing hallucination mitigation methods either incur prohibitive computational costs or introduce distribution mismatches between training data and model outputs. We identify a critical insight: hallucinations predominantly emerge at the early stages of text generation and propagate through subsequent outputs. To address this, we propose **SENTINEL** (**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning), a framework that eliminates dependency on human annotations. Specifically, we first bootstrap high-quality in-domain preference pairs by iteratively sampling model outputs, validating object existence through cross-checking with two open-vocabulary detectors, and classifying sentences into hallucinated/non-hallucinated categories. Subsequently, we use context-coherent positive samples and hallucinated negative samples to build context-aware preference data iteratively. Finally, we train models using a context-aware preference loss (C-DPO) that emphasizes discriminative learning at the sentence level where hallucinations initially manifest. Experimental results show that SENTINEL can reduce hallucinations by over 90\% compared to the original model and outperforms the previous state-of-the-art method on both hallucination benchmarks and general capabilities benchmarks, demonstrating its superiority and generalization ability. The models, datasets, and code are available at https://github.com/pspdada/SENTINEL.

Mitigare le allucinazioni degli oggetti mediante interventi precisi a livello di frase

Mitigating Object Hallucinations via Sentence-Level Early Intervention

Abstract

Support