読むことであって、考えることではない:マルチモーダルLLMにおいてテキストがピクセルになるときのモダリティギャップの理解と架橋
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
March 10, 2026
著者: Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は画像として提示されたテキストを処理できるが、同じ内容がテキストトークンとして提供された場合よりも性能が低下することが多い。我々はこの「モダリティギャップ」を体系的に診断するため、7つのMLLMを5つの入力モードで7つのベンチマークに評価し、合成レンダリングされたテキストからarXivのPDFやWikipediaページといった実世界の文書画像までを網羅的に検証した。その結果、モダリティギャップはタスクとデータに依存することが判明した。例えば数学タスクでは合成レンダリングで60ポイント以上の性能低下が見られる一方、自然な文書画像ではテキストモードの性能を匹敵または上回る場合が多い。フォントや解像度といったレンダリング選択は強力な交絡因子であり、フォントのみで最大47パーセントポイントの精度変動を引き起こす。この原因を探るため、4,000以上の事例に対するグラウンデッドセオリーに基づく誤り分析を実施した結果、画像モードでは読解エラー(計算や書式の失敗)が選択的に増幅される一方、知識や推論エラーはほぼ変化せず、一部のモデルでは視覚入力下で連鎖思考推論が崩壊する現象が観察された。これらの知見に基づき、我々は画像入力とモデル自身の純粋なテキスト推論軌跡を組み合わせた自己蒸留手法を提案する。この手法により、GSM8Kにおける画像モードの精度が30.71%から92.72%に向上し、破滅的な忘却なく未見のベンチマークへ転移可能となった。総合的に、本研究はモダリティギャップに対する体系的理解を提供するとともに、マルチモーダル言語モデルにおける視覚的テキスト理解改善への実践的な道筋を示唆するものである。
English
Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.