ChatPaper.aiChatPaper

CodeOCR: Об эффективности моделей «визуальный язык» для понимания кода

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

February 2, 2026
Авторы: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu
cs.AI

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в понимании исходного кода, однако с ростом масштаба программных систем вычислительная эффективность стала критическим узким местом. В настоящее время эти модели используют текстовую парадигму, которая рассматривает исходный код как линейную последовательность токенов, что приводит к линейному увеличению длины контекста и связанных с этим вычислительных затрат. Стремительное развитие мультимодальных LLM (MLLM) открывает возможность оптимизации эффективности за счет представления исходного кода в виде визуализированных изображений. В отличие от текста, который сложно сжать без потери смысла, модальность изображения по своей природе подходит для сжатия. Путем регулировки разрешения изображения можно масштабировать до доли от их исходной стоимости в токенах, сохраняя при этом узнаваемость для моделей с возможностями компьютерного зрения. Чтобы исследовать осуществимость этого подхода, мы проводим первое систематическое исследование эффективности MLLM для понимания кода. Наши эксперименты показывают, что: (1) MLLM могут эффективно понимать код при значительном сокращении количества токенов, достигая сжатия до 8 раз; (2) MLLM могут эффективно использовать визуальные подсказки, такие как подсветка синтаксиса, улучшая производительность автодополнения кода при 4-кратном сжатии; и (3) Задачи понимания кода, такие как обнаружение клонов, демонстрируют исключительную устойчивость к визуальному сжатию, причем некоторые коэффициенты сжатия даже незначительно превосходят исходные текстовые входные данные. Наши результаты подчеркивают как потенциал, так и текущие ограничения MLLM в понимании кода, что указывает на переход к представлению кода в виде изображений как путь к более эффективному выводу.
English
Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.
PDF812February 5, 2026