Lettura, non pensiero: comprendere e colmare il divario modale quando il testo diventa pixel nei modelli linguistici multimodali

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di elaborare testo presentato sotto forma di immagini, ma spesso ottengono prestazioni inferiori rispetto a quando lo stesso contenuto viene fornito come token testuali. Diagnosticiamo sistematicamente questo "divario modale" valutando sette MLLM su sette benchmark in cinque modalità di input, che spaziano da testo sinteticamente renderizzato a immagini realistiche di documenti, dai PDF di arXiv alle pagine di Wikipedia. Scopriamo che il divario modale è dipendente dal compito e dai dati. Ad esempio, i compiti matematici peggiorano di oltre 60 punti su rendering sintetici, mentre le immagini di documenti naturali spesso eguagliano o superano le prestazioni in modalità testo. Scelte di rendering come font e risoluzione sono fattori confondenti significativi, con il solo font che fa oscillare l'accuratezza fino a 47 punti percentuali. Per comprenderlo, conduciamo un'analisi degli errori basata sulla teoria fondata su oltre 4.000 esempi, rivelando che la modalità immagine amplifica selettivamente gli errori di lettura (errori di calcolo e formattazione) lasciando invece sostanzialmente invariati gli errori di conoscenza e ragionamento, e che alcuni modelli mostrano un collasso del ragionamento a catena del pensiero sotto input visivo. Motivati da questi risultati, proponiamo un metodo di auto-distillazione che addestra il modello sulle proprie tracce di ragionamento in puro testo abbinate a input immagine, aumentando l'accuratezza in modalità immagine su GSM8K dal 30,71% al 92,72% e trasferendo la capacità a benchmark non visti senza dimenticanza catastrofica. Nel complesso, il nostro studio fornisce una comprensione sistematica del divario modale e suggerisce una strada pratica per migliorare la comprensione del testo visivo nei modelli linguistici multimodali.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Lettura, non pensiero: comprendere e colmare il divario modale quando il testo diventa pixel nei modelli linguistici multimodali

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Abstract

Support