Чтение, а не мышление: понимание и преодоление модального разрыва, когда текст становится пикселями в мультимодальных языковых моделях

Аннотация

Мультимодальные большие языковые модели (МБЯМ) способны обрабатывать текст, представленный в виде изображений, однако их производительность часто оказывается ниже, чем при подаче того же контента в виде текстовых токенов. Мы проводим систематическую диагностику этого "модального разрыва", оценивая семь МБЯМ на семи тестовых наборах в пяти режимах ввода, включая как синтетически отрендеренный текст, так и реалистичные изображения документов — от PDF-файлов с arXiv до страниц Wikipedia. Мы обнаруживаем, что модальный разрыв зависит от задачи и данных. Например, на математических задачах производительность падает более чем на 60 пунктов на синтетических изображениях, в то время как на реалистичных изображениях документов она часто соответствует или превосходит текстовый режим. Параметры рендеринга, такие как шрифт и разрешение, являются сильными confounding-факторами: только шрифт может изменять точность до 47 процентных пунктов. Чтобы понять это, мы проводим обоснованное теоретическое исследование ошибок на более чем 4000 примерах, которое показывает, что визуальный режим избирательно усиливает ошибки чтения (ошибки вычислений и форматирования), оставляя ошибки знаний и логики практически неизменными, а также что некоторые модели демонстрируют коллапс chain-of-thought рассуждений при визуальном вводе. Мотивируясь этими выводами, мы предлагаем метод самодистилляции, который обучает модель на ее собственных "чистых" текстовых траекториях рассуждений, спаренных с визуальными входами, повышая точность в визуальном режиме на GSM8K с 30.71% до 92.72% с переносом на новые тестовые наборы без катастрофического забывания. В целом, наше исследование дает систематическое понимание модального разрыва и предлагает практический путь к улучшению визуального понимания текста в мультимодальных языковых моделях.

English

Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.

Чтение, а не мышление: понимание и преодоление модального разрыва, когда текст становится пикселями в мультимодальных языковых моделях

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Аннотация

Support