다중모드 대규모 언어 모델의 객체 및 행동 환각 현상 완화: 자기 증강 대조 정렬 기법
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
저자: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
초록
최근 멀티모달 LLM(MLLM)의 발전은 입력된 비디오에 대한 설명 캡션 생성에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 모델들은 생성된 설명에서 사실적 오류가 발생하여 심각한 환각 문제를 야기합니다. 기존 연구들이 정적 이미지에 대한 환각 완화를 탐구해왔지만, 동적 비디오에 대한 시각적 객체와 시간적 행동 환각을 함께 완화하는 것은 여전히 해결되지 않은 난제로 남아 있습니다. 이러한 과제를 해결하기 위해 우리는 허위 상관관계를 배제하고 시각적 사실에 대한 강조를 강화하여 객체와 행동의 정확성을 보장하는 자가 증강 대조 정렬(SANTA) 프레임워크를 제안합니다. SANTA는 MLLM 내에 잠재된 환각을 식별하고 원본 캡션을 대조적 부정 예시로 변환하는 환각적 자기 증강 기법을 채택합니다. 더 나아가, 우리는 영역별 객체와 관계 기반 행동을 해당 시각적 및 시간적 구문과 매칭하기 위한 트랙렛-구문 대조 정렬 기법을 개발했습니다. 광범위한 실험을 통해 SANTA가 객체 및 행동 환각 완화에서 기존 방법들을 능가하며, 환각 검증 벤치마크에서 우수한 성능을 보여줌을 입증했습니다.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.