Lire, ne pas penser : Comprendre et combler l'écart de modalité lorsque le texte devient pixels dans les LLM multimodaux

Résumé

Les grands modèles linguistiques multimodaux (MLLM) peuvent traiter le texte présenté sous forme d'images, mais leurs performances sont souvent inférieures à celles obtenues lorsque le même contenu est fourni sous forme de tokens textuels. Nous diagnostiquons systématiquement cet "écart modal" en évaluant sept MLLM sur sept benchmarks selon cinq modes d'entrée, couvrant à la fois du texte synthétiquement rendu et des images réalistes de documents allant des PDF arXiv aux pages Wikipédia. Nous constatons que l'écart modal dépend de la tâche et des données. Par exemple, les tâches mathématiques se dégradent de plus de 60 points sur les rendus synthétiques, tandis que les images de documents naturels égalent ou dépassent souvent les performances en mode texte. Les choix de rendu tels que la police et la résolution sont de puissants facteurs de confusion, la police seule pouvant faire varier la précision jusqu'à 47 points de pourcentage. Pour comprendre ce phénomène, nous menons une analyse d'erreurs fondée sur la théorie ancrée portant sur plus de 4 000 exemples, révélant que le mode image amplifie sélectivement les erreurs de lecture (échecs de calcul et de formatage) tout en laissant largement inchangées les erreurs de connaissances et de raisonnement, et que certains modèles présentent un effondrement du raisonnement en chaîne de pensée sous entrée visuelle. Motivés par ces résultats, nous proposons une méthode d'auto-distillation qui entraîne le modèle sur ses propres traces de raisonnement en texte pur associées à des entrées image, augmentant la précision en mode image sur GSM8K de 30,71 % à 92,72 % et permettant un transfert sur des benchmarks non vus sans oubli catastrophique. Globalement, notre étude offre une compréhension systématique de l'écart modal et suggère une voie pratique pour améliorer la compréhension du texte visuel dans les modèles linguistiques multimodaux.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Lire, ne pas penser : Comprendre et combler l'écart de modalité lorsque le texte devient pixels dans les LLM multimodaux

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Résumé

Support