Lezen, niet denken: De modaliteitskloof begrijpen en overbruggen wanneer tekst pixels wordt in multimodale LLM's

Samenvatting

Multimodale grote taalmodellen (MLLM's) kunnen tekst verwerken die als afbeelding wordt gepresenteerd, maar ze presteren vaak slechter dan wanneer dezelfde inhoud als tekstuele tokens wordt aangeboden. Wij diagnosticeren deze "modaliteitskloof" systematisch door zeven MLLM's te evalueren aan de hand van zeven benchmarks in vijf invoermodi, variërend van synthetisch gegenereerde tekst tot realistische documentafbeeldingen van arXiv-PDF's tot Wikipedia-pagina's. Wij constateren dat de modaliteitskloof taak- en data-afhankelijk is. Bij wiskundetaken bijvoorbeeld daalt de prestaties met meer dan 60 punten bij synthetische weergaven, terwijl natuurlijke documentafbeeldingen vaak even goed of beter presteren dan de tekstmodus. Weergavekeuzes zoals lettertype en resolutie zijn sterke verstorende factoren, waarbij alleen al het lettertype de nauwkeurigheid met tot 47 procentpunten kan beïnvloeden. Om dit te begrijpen, voeren we een grounded-theory foutenanalyse uit van meer dan 4.000 voorbeelden, waaruit blijkt dat de beeldmodus leesfouten selectief versterkt (reken- en opmaakfouten) terwijl kennis- en redeneerfouten grotendeels onveranderd blijven, en dat sommige modellen een keten-van-gedachten redeneercollaps vertonen bij visuele invoer. Gemotiveerd door deze bevindingen stellen we een zelfdistillatiemethode voor waarbij het model wordt getraind op zijn eigen pure tekstredeneringen, gekoppeld aan beeldinvoer. Dit verhoogt de nauwkeurigheid in de beeldmodus op GSM8K van 30,71% naar 92,72% en transferreert naar onbekende benchmarks zonder catastrofale vergetelheid. Over het geheel genomen biedt onze studie een systematisch inzicht in de modaliteitskloof en wijst het een praktisch pad aan om het visuele tekstbegrip in multimodale taalmodellen te verbeteren.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Lezen, niet denken: De modaliteitskloof begrijpen en overbruggen wanneer tekst pixels wordt in multimodale LLM's

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Samenvatting

Support