Atténuation des hallucinations d'objets et d'actions dans les LLM multimodaux via un alignement contrastif auto-augmenté
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
papers.authors: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
papers.abstract
Les progrès récents des modèles de langage multimodaux (MLLM) ont démontré leur capacité remarquable à générer des descriptions pour des vidéos d'entrée. Cependant, ces modèles souffrent d'inexactitudes factuelles dans les descriptions générées, entraînant de graves problèmes d'hallucination. Alors que les travaux antérieurs ont exploré l'atténuation des hallucinations pour les images statiques, la réduction conjointe des hallucinations d'objets visuels et d'actions temporelles pour les vidéos dynamiques reste une tâche difficile et non résolue. Pour relever ce défi, nous proposons un cadre d'Alignement Contrastif Auto-Augmenté (SANTA) visant à garantir la fidélité des objets et des actions en exemptant les corrélations fallacieuses et en renforçant l'accent sur les faits visuels. SANTA utilise un schéma d'auto-augmentation hallucinatif pour identifier les hallucinations potentielles présentes dans le MLLM et transformer les descriptions originales en négatifs contrastés. De plus, nous développons un alignement contrastif trajectoire-phrase pour faire correspondre les objets régionaux et les actions guidées par les relations avec leurs phrases visuelles et temporelles correspondantes. Des expériences approfondies démontrent que SANTA surpasse les méthodes existantes dans l'atténuation des hallucinations d'objets et d'actions, offrant des performances supérieures sur les benchmarks d'examen des hallucinations.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.