ChatPaper.aiChatPaper

マルチモーダル大規模言語モデルにおける物体・動作幻覚の軽減:自己拡張によるコントラスティブアライメント手法

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

December 4, 2025
著者: Kai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の最近の進展は、入力動画に対する説明的なキャプション生成において顕著な能力を示している。しかしながら、これらのモデルは生成される記述に事実誤認が生じやすく、深刻な幻覚(ハルシネーション)問題を引き起こしている。静的な画像に対する幻覚の軽減については先行研究で探求されているが、動的な動画における視覚的対象物と時間的行動の幻覚を同時に抑制することは、未解決の困難な課題である。この課題に取り組むため、我々は擬似的相関を排除し視覚的事実への重点化を強化することで、対象物と行動の忠実性を実現する自己拡張的対比整合(SANTA)フレームワークを提案する。SANTAは幻覚的自己拡張スキームを採用し、MLLM内に潜在する幻覚を特定し、元のキャプションを対照的ネガティブサンプルへ変換する。さらに、領域的対象物と関係性に導かれた行動を、対応する視覚的・時間的フレーズと整合させるためのトラックレット-フレーズ対比整合を開発する。大規模な実験により、SANTAが対象物および行動の幻覚軽減において既存手法を上回り、幻覚評価ベンチマークで優れた性能を発揮することが実証された。
English
Recent advancement in multimodal LLMs (MLLMs) has demonstrated their remarkable capability to generate descriptive captions for input videos. However, these models suffer from factual inaccuracies in the generated descriptions, causing severe hallucination issues. While prior works have explored alleviating hallucinations for static images, jointly mitigating visual object and temporal action hallucinations for dynamic videos remains a challenging and unsolved task. To tackle this challenge, we propose a Self-Augmented Contrastive Alignment (SANTA) framework for enabling object and action faithfulness by exempting the spurious correlations and enforcing the emphasis on visual facts. SANTA employs a hallucinative self-augmentation scheme to identify the potential hallucinations that lie in the MLLM and transform the original captions to the contrasted negatives. Furthermore, we develop a tracklet-phrase contrastive alignment to match the regional objects and relation-guided actions with their corresponding visual and temporal phrases. Extensive experiments demonstrate that SANTA outperforms existing methods in alleviating object and action hallucinations, yielding superior performance on the hallucination examination benchmarks.
PDF52December 6, 2025