大規模視覚言語モデルにおける幻覚を軽減するための テキスト埋め込みの洗練手法
Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings
November 7, 2025
著者: Aakriti Agrawal, Gouthaman KV, Rohith Aralikatti, Gauri Jagatap, Jiaxin Yuan, Vijay Kamarshi, Andrea Fanelli, Furong Huang
cs.AI
要旨
本研究では、既存の大規模視覚言語モデル(LVLM)のアーキテクチャに内在する、言語モダリティへのバイアスを明らかにする。このバイアスは、視覚埋め込みを単純に入力テキスト系列に付加するという一般的な手法に起因する。この問題に対処するため、平均プーリングされた視覚特徴を統合することでテキスト埋め込みを精緻化する、簡潔かつ効果的な手法を提案する。本手法は、確立されたベンチマークにおいて視覚的接地を改善し、幻覚生成を大幅に低減することを実証する。平均プーリングは視覚情報を組み込むための直感的で頑健かつ効率的な手段であるが、より洗練された融合手法によって視覚的接地とクロスモーダル連携がさらに向上する可能性がある。本研究の主眼はモダリティ不均衡と幻覚生成への影響を明らかにし、視覚情報によるテキスト埋め込みの精緻化がこの問題を緩和することを示すことにあるため、高度な融合戦略の探求は将来の課題とする。
English
In this work, we identify an inherent bias in prevailing LVLM architectures
toward the language modality, largely resulting from the common practice of
simply appending visual embeddings to the input text sequence. To address this,
we propose a simple yet effective method that refines textual embeddings by
integrating average-pooled visual features. Our approach demonstrably improves
visual grounding and significantly reduces hallucinations on established
benchmarks. While average pooling offers a straightforward, robust, and
efficient means of incorporating visual information, we believe that more
sophisticated fusion methods could further enhance visual grounding and
cross-modal alignment. Given that the primary focus of this work is to
highlight the modality imbalance and its impact on hallucinations -- and to
show that refining textual embeddings with visual information mitigates this
issue -- we leave exploration of advanced fusion strategies for future work.