Leitura, Não Pensamento: Compreendendo e Transpondo a Lacuna de Modalidade Quando o Texto se Torna Pixels em MLLMs Multimodais

Resumo

Os modelos de linguagem multimodal (MLLMs) conseguem processar texto apresentado como imagem, mas frequentemente apresentam desempenho inferior ao mesmo conteúdo fornecido como tokens textuais. Diagnosticamos sistematicamente esta "lacuna de modalidade" avaliando sete MLLMs em sete benchmarks e cinco modos de entrada, abrangendo desde texto renderizado sinteticamente até imagens realistas de documentos, desde PDFs do arXiv até páginas da Wikipédia. Descobrimos que a lacuna de modalidade é dependente da tarefa e dos dados. Por exemplo, tarefas de matemática degradam-se em mais de 60 pontos em renderizações sintéticas, enquanto imagens de documentos naturais frequentemente igualam ou superam o desempenho no modo texto. Escolhas de renderização, como fonte e resolução, são fortes fatores de confusão, sendo que apenas a fonte pode alterar a precisão em até 47 pontos percentuais. Para entender isto, realizamos uma análise de erros baseada em teoria fundamentada de mais de 4.000 exemplos, revelando que o modo imagem amplifica seletivamente erros de leitura (falhas de cálculo e formatação), enquanto deixa erros de conhecimento e raciocínio praticamente inalterados, e que alguns modelos exibem um colapso do raciocínio de cadeia de pensamento sob entrada visual. Motivados por estas descobertas, propomos um método de auto-distilação que treina o modelo com seus próprios traços de raciocínio em texto puro emparelhados com entradas de imagem, elevando a precisão no modo imagem no GSM8K de 30,71% para 92,72% e transferindo-se para benchmarks não vistos sem esquecimento catastrófico. No geral, nosso estudo fornece uma compreensão sistemática da lacuna de modalidade e sugere um caminho prático para melhorar a compreensão de texto visual em modelos de linguagem multimodal.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Leitura, Não Pensamento: Compreendendo e Transpondo a Lacuna de Modalidade Quando o Texto se Torna Pixels em MLLMs Multimodais

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Resumo

Support