Lesen, nicht Denken: Verständnis und Überbrückung der Modalitätslücke, wenn Text zu Pixeln in multimodalen LLMs wird

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) können als Bilder dargestellten Text verarbeiten, schneiden jedoch oft schlechter ab, als wenn derselbe Inhalt in Form von Text-Tokens bereitgestellt wird. Wir diagnostizieren systematisch diese "Modalitätslücke", indem wir sieben MLLMs anhand von sieben Benchmarks in fünf Eingabemodi evaluieren, die sowohl synthetisch gerenderten Text als auch realistische Dokumentbilder von arXiv-PDFs bis hin zu Wikipedia-Seiten umfassen. Wir stellen fest, dass die Modalitätslücke aufgaben- und datenabhängig ist. Beispielsweise verschlechtern sich mathematische Aufgaben bei synthetischen Darstellungen um über 60 Punkte, während natürliche Dokumentbilder die Leistung im Textmodus oft erreichen oder übertreffen. Darstellungsentscheidungen wie Schriftart und Auflösung sind starke Störfaktoren, wobei allein die Schriftart die Genauigkeit um bis zu 47 Prozentpunkte beeinflussen kann. Um dies zu verstehen, führen wir eine feingliedrige Fehleranalyse von über 4.000 Beispielen durch, die zeigt, dass der Bildmodus selektiv Lesefehler (Rechen- und Formatierungsfehler) verstärkt, während Wissens- und Reasoning-Fehler weitgehend unverändert bleiben, und dass einige Modelle unter visueller Eingabe einen Kollaps der Kettenschluss-Argumentation (Chain-of-Thought) aufweisen. Motiviert durch diese Erkenntnisse schlagen wir eine Selbst-Distillationsmethode vor, bei der das Modell mit seinen eigenen reinen Text-Reasoning-Spuren trainiert wird, die mit Bildeingaben gepaart sind. Dies steigert die Genauigkeit im Bildmodus auf GSM8K von 30,71 % auf 92,72 % und überträgt sich auf unbekannte Benchmarks ohne katastrophales Vergessen. Insgesamt liefert unsere Studie ein systematisches Verständnis der Modalitätslücke und weist einen praktischen Weg zur Verbesserung des visuellen Textverständnisses in multimodalen Sprachmodellen.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Lesen, nicht Denken: Verständnis und Überbrückung der Modalitätslücke, wenn Text zu Pixeln in multimodalen LLMs wird

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Zusammenfassung

Support