Снижение галлюцинаций объектов и действий в мультимодальных больших языковых моделях с помощью самодополняющего контрастного выравнивания
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
Авторы: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLM) продемонстрировали их впечатляющую способность генерировать описательные подписи к входным видео. Однако эти модели страдают от фактических неточностей в генерируемых описаниях, что приводит к серьёзным проблемам галлюцинаций. В то время как предыдущие работы исследовали способы уменьшения галлюцинаций для статических изображений, совместное устранение галлюцинаций визуальных объектов и временных действий для динамических видео остаётся сложной и нерешённой задачей. Для решения этой проблемы мы предлагаем фреймворк SANTA (Self-Augmented Contrastive Alignment), обеспечивающий достоверность объектов и действий за счёт исключения ложных корреляций и усиления акцента на визуальных фактах. SANTA использует схему самодополнения, основанную на галлюцинациях, для выявления потенциальных искажений, присутствующих в MLLM, и преобразует исходные подписи в контрастирующие негативные примеры. Кроме того, мы разрабатываем контрастирующее выравнивание на основе треклетов и фраз для сопоставления региональных объектов и действий, управляемых отношениями, с их соответствующими визуальными и временными фразами. Многочисленные эксперименты демонстрируют, что SANTA превосходит существующие методы в снижении галлюцинаций объектов и действий, показывая превосходные результаты на эталонных тестах для проверки галлюцинаций.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.