同じ内容、異なる回答:MLLMにおけるクロスモーダル不一致
Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
December 9, 2025
著者: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
cs.AI
要旨
本論文では、マルチモーダル大規模言語モデル(MLLM)におけるクロスモーダル不一致を体系的に評価するため、2つの新規ベンチマークRESTおよびREST+(Render-Equivalence Stress Tests)を提案する。MLLMは視覚情報と言語情報を同一の埋め込み空間で表現するよう学習されるが、両モーダルで同等のタスクを遂行することはできない。我々のベンチマークは、画像、テキスト、混合という3つのモーダルにおいて同一の意味情報を含むサンプルで構成され、最先端MLLMがこれらの異なるモーダル間で一貫した推論を行えないことを示す。15種類のMLLMを評価した結果、テキスト認識(OCR)の問題を考慮しても、モーダル不一致の程度がモデル間で大きく異なることが明らかとなった。テキストを画像としてレンダリングする場合も、画像をテキストとしてレンダリングする場合も、不一致の解消には至らない。OCRが正確であっても、視覚的特性(文字色と解像度。フォントは除く)や視覚トークン数がモデル性能に影響を及ぼすことが確認された。最後に、提案する一貫性スコアがテキストと画像間のモーダルギャップと相関することを発見し、クロスモーダル不一致を生むMLLMのメカニズム的解釈を提示する。
English
We introduce two new benchmarks REST and REST+(Render-Equivalence Stress Tests) to enable systematic evaluation of cross-modal inconsistency in multimodal large language models (MLLMs). MLLMs are trained to represent vision and language in the same embedding space, yet they cannot perform the same tasks in both modalities. Our benchmarks contain samples with the same semantic information in three modalities (image, text, mixed) and we show that state-of-the-art MLLMs cannot consistently reason over these different modalities. We evaluate 15 MLLMs and find that the degree of modality inconsistency varies substantially, even when accounting for problems with text recognition (OCR). Neither rendering text as image nor rendering an image as text solves the inconsistency. Even if OCR is correct, we find that visual characteristics (text colour and resolution, but not font) and the number of vision tokens have an impact on model performance. Finally, we find that our consistency score correlates with the modality gap between text and images, highlighting a mechanistic interpretation of cross-modal inconsistent MLLMs.