Minderung von Objekt- und Handlungshalluzinationen in multimodalen LLMs durch selbstaugmentierte kontrastive Ausrichtung
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment
December 4, 2025
papers.authors: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen LLMs (MLLMs) haben deren bemerkenswerte Fähigkeit demonstriert, beschreibende Bildunterschriften für Eingabevideos zu generieren. Diese Modelle leiden jedoch unter faktischen Ungenauigkeiten in den generierten Beschreibungen, was zu schwerwiegenden Halluzinationsproblemen führt. Während frühere Arbeiten die Linderung von Halluzinationen bei statischen Bildern untersucht haben, bleibt die gemeinsame Minderung von visuellen Objekt- und temporalen Aktionshalluzinationen für dynamische Videos eine herausfordernde und ungelöste Aufgabe. Um diese Herausforderung zu bewältigen, schlagen wir einen Rahmenwerk zur selbstaugmentierten kontrastiven Abgleichung (SANTA) vor, um Objekt- und Aktionszuverlässigkeit zu ermöglichen, indem trügerische Korrelationen ausgeschlossen und der Fokus auf visuelle Fakten verstärkt wird. SANTA verwendet ein halluzinatives Selbstaugmentierungsschema, um die potenziellen Halluzinationen zu identifizieren, die im MLLM vorliegen, und wandelt die ursprünglichen Bildunterschriften in kontrastierte Negative um. Darüber hinaus entwickeln wir eine tracklet-phrasale kontrastive Abgleichung, um regionale Objekte und relationsgesteuerte Aktionen mit ihren entsprechenden visuellen und temporalen Phrasen abzugleichen. Umfangreiche Experimente zeigen, dass SANTA bestehende Methoden bei der Reduzierung von Objekt- und Aktionshalluzinationen übertrifft und eine überlegene Leistung auf Halluzinationsprüf-Benchmarks erzielt.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.