Lectura, no pensamiento: Comprender y salvar la brecha modal cuando el texto se convierte en píxeles en los LLM multimodales

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) pueden procesar texto presentado como imágenes, pero a menudo su rendimiento es inferior al obtenido cuando el mismo contenido se proporciona como tokens textuales. Diagnosticamos sistemáticamente esta "brecha de modalidad" evaluando siete MLLMs en siete puntos de referencia y cinco modos de entrada, que abarcan desde texto renderizado sintéticamente hasta imágenes realistas de documentos, desde archivos PDF de arXiv hasta páginas de Wikipedia. Encontramos que la brecha de modalidad depende de la tarea y de los datos. Por ejemplo, las tareas matemáticas se degradan en más de 60 puntos en renderizados sintéticos, mientras que las imágenes de documentos naturales a menudo igualan o superan el rendimiento en modo texto. Las opciones de renderizado, como la fuente y la resolución, son factores de confusión importantes; solo el cambio de fuente puede alterar la precisión hasta en 47 puntos porcentuales. Para comprender esto, realizamos un análisis de errores basado en teoría fundamentada de más de 4,000 ejemplos, revelando que el modo imagen amplifica selectivamente los errores de lectura (fallos de cálculo y formato) mientras deja los errores de conocimiento y razonamiento prácticamente inalterados, y que algunos modelos exhiben un colapso del razonamiento en cadena bajo entrada visual. Motivados por estos hallazgos, proponemos un método de auto-destilación que entrena al modelo con sus propias trazas de razonamiento en texto puro emparejadas con entradas de imagen, elevando la precisión en modo imagen en GSM8K del 30.71% al 92.72% y transfiriendo el aprendizaje a puntos de referencia no vistos sin olvido catastrófico. En general, nuestro estudio proporciona una comprensión sistemática de la brecha de modalidad y sugiere un camino práctico para mejorar la comprensión del texto visual en los modelos de lenguaje multimodales.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Lectura, no pensamiento: Comprender y salvar la brecha modal cuando el texto se convierte en píxeles en los LLM multimodales

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Resumen

Support