문장 수준의 조기 개입을 통한 객체 환각 현상 완화
Mitigating Object Hallucinations via Sentence-Level Early Intervention
July 16, 2025
저자: Shangpin Peng, Senqiao Yang, Li Jiang, Zhuotao Tian
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 크로스모달 이해에 혁신을 가져왔지만, 시각적 입력과 모순되는 허구적 내용인 환각(hallucination) 문제에 여전히 어려움을 겪고 있습니다. 기존의 환각 완화 방법은 과도한 계산 비용을 초래하거나 훈련 데이터와 모델 출력 간의 분포 불일치를 유발합니다. 우리는 중요한 통찰을 발견했습니다: 환각은 주로 텍스트 생성의 초기 단계에서 발생하며 이후 출력으로 전파됩니다. 이를 해결하기 위해 우리는 **SENTINEL**(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain pr**E**ference **L**earning)이라는 프레임워크를 제안합니다. 이 프레임워크는 인간 주석에 대한 의존성을 제거합니다. 구체적으로, 우리는 먼저 모델 출력을 반복적으로 샘플링하고, 두 개의 오픈 어휘 검출기를 통해 객체 존재를 교차 검증하며, 문장을 환각/비환각 범주로 분류하여 고품질의 도메인 내 선호 쌍을 부트스트랩합니다. 이후, 문맥 일관성이 있는 긍정적 샘플과 환각된 부정적 샘플을 사용하여 문맥 인식 선호 데이터를 반복적으로 구축합니다. 마지막으로, 환각이 처음 나타나는 문장 수준에서 차별적 학습을 강조하는 문맥 인식 선호 손실(C-DPO)을 사용하여 모델을 훈련합니다. 실험 결과는 SENTINEL이 원본 모델 대비 환각을 90% 이상 감소시키고, 환각 벤치마크와 일반 능력 벤치마크 모두에서 이전의 최첨단 방법을 능가하며, 그 우수성과 일반화 능력을 입증합니다. 모델, 데이터셋 및 코드는 https://github.com/pspdada/SENTINEL에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) have revolutionized cross-modal
understanding but continue to struggle with hallucinations - fabricated content
contradicting visual inputs. Existing hallucination mitigation methods either
incur prohibitive computational costs or introduce distribution mismatches
between training data and model outputs. We identify a critical insight:
hallucinations predominantly emerge at the early stages of text generation and
propagate through subsequent outputs. To address this, we propose **SENTINEL**
(**S**entence-level **E**arly i**N**tervention **T**hrough **IN**-domain
pr**E**ference **L**earning), a framework that eliminates dependency on human
annotations. Specifically, we first bootstrap high-quality in-domain preference
pairs by iteratively sampling model outputs, validating object existence
through cross-checking with two open-vocabulary detectors, and classifying
sentences into hallucinated/non-hallucinated categories. Subsequently, we use
context-coherent positive samples and hallucinated negative samples to build
context-aware preference data iteratively. Finally, we train models using a
context-aware preference loss (C-DPO) that emphasizes discriminative learning
at the sentence level where hallucinations initially manifest. Experimental
results show that SENTINEL can reduce hallucinations by over 90\% compared to
the original model and outperforms the previous state-of-the-art method on both
hallucination benchmarks and general capabilities benchmarks, demonstrating its
superiority and generalization ability. The models, datasets, and code are
available at https://github.com/pspdada/SENTINEL.