Mitigazione delle Allucinazioni di Oggetti e Azioni nei Modelli Linguistici Multimodali tramite Allineamento Contrastivo Auto-aumentato
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
Autori: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali (MLLM) hanno dimostrato la loro notevole capacità di generare didascalie descrittive per video in input. Tuttavia, questi modelli soffrono di inesattezze fattuali nelle descrizioni generate, causando gravi problemi di allucinazione. Mentre lavori precedenti hanno esplorato l'attenuazione delle allucinazioni per immagini statiche, mitigare congiuntamente le allucinazioni di oggetti visivi e di azioni temporali per video dinamici rimane un compito impegnativo e irrisolto. Per affrontare questa sfida, proponiamo un framework di Allineamento Contrapposto Auto-aumentato (SANTA) per garantire la fedeltà di oggetti e azioni, esentando le correlazioni spurie e imponendo l'enfasi sui fatti visivi. SANTA impiega uno schema di auto-aumentazione allucinativa per identificare le potenziali allucinazioni presenti nell'MLLM e trasformare le didascalie originali in negativi contrapposti. Inoltre, sviluppiamo un allineamento contrapposto tra traclette e frasi per associare gli oggetti regionali e le azioni guidate dalle relazioni con le corrispondenti frasi visive e temporali. Esperimenti estensivi dimostrano che SANTA supera i metodi esistenti nell'attenuare le allucinazioni di oggetti e azioni, ottenendo prestazioni superiori sui benchmark di esame delle allucinazioni.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.