ChatPaper.aiChatPaper

Het verminderen van object- en actiehallucinaties in multimodale LLM's via zelf-aangevulde contrastieve uitlijning

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

December 4, 2025
Auteurs: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft hun opmerkelijke vermogen aangetoond om beschrijvende bijschriften voor invoervideo's te genereren. Deze modellen lijden echter onder feitelijke onnauwkeurigheden in de gegenereerde beschrijvingen, wat tot ernstige hallucinatieproblemen leidt. Hoewel eerder onderzoek het verminderen van hallucinaties voor statische afbeeldingen heeft verkend, blijft het gezamenlijk beperken van visuele object- en temporele actiehallucinaties voor dynamische video's een uitdagende en onopgeloste taak. Om deze uitdaging aan te pakken, stellen we een raamwerk voor van Zelf-versterkte Contrastieve Afstemming (SANTA) om de trouw aan objecten en acties mogelijk te maken door valse correlaties uit te sluiten en de nadruk op visuele feiten af te dwingen. SANTA gebruikt een hallucinatieve zelf-versterkingsmethode om de potentiële hallucinaties die in het MLLM aanwezig zijn te identificeren en de originele bijschriften om te zetten in gecontrasteerde negatieven. Verder ontwikkelen we een tracklet-zinscontrastieve afstemming om regionale objecten en relatie-gestuurde acties af te stemmen op hun corresponderende visuele en temporele zinsdelen. Uitgebreide experimenten tonen aan dat SANTA bestaande methoden overtreft in het verminderen van object- en actiehallucinaties, wat superieure prestaties oplevert op de benchmarks voor hallucinatie-onderzoek.
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.
PDF93December 21, 2025