Mitigación de Alucinaciones de Objetos y Acciones en Modelos de Lenguaje Multimodales mediante Alineación Contrastiva Auto-aumentada
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
Autores: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje multimodal (MLLM) han demostrado su notable capacidad para generar descripciones de videos de entrada. Sin embargo, estos modelos adolecen de imprecisiones fácticas en las descripciones generadas, lo que provoca graves problemas de alucinación. Si bien trabajos anteriores han explorado la mitigación de alucinaciones para imágenes estáticas, la mitigación conjunta de alucinaciones de objetos visuales y acciones temporales para videos dinámicos sigue siendo una tarea desafiante y sin resolver. Para abordar este desafío, proponemos un marco de Alineación Contrastante Auto-Aumentada (SANTA) para garantizar la fidelidad de objetos y acciones, mediante la exención de correlaciones espurias y la aplicación de énfasis en los hechos visuales. SANTA emplea un esquema de auto-aumento alucinativo para identificar las posibles alucinaciones presentes en el MLLM y transformar las descripciones originales en negativos contrastados. Además, desarrollamos una alineación contrastante de pista-frase para emparejar los objetos regionales y las acciones guiadas por relaciones con sus correspondientes frases visuales y temporales. Experimentos exhaustivos demuestran que SANTA supera a los métodos existentes en la mitigación de alucinaciones de objetos y acciones, logrando un rendimiento superior en los puntos de referencia de examen de alucinaciones.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.