CodeOCR: Sobre la Eficacia de los Modelos de Lenguaje Visual en la Comprensión de Código
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
February 2, 2026
Autores: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLM) han logrado un éxito notable en la comprensión del código fuente, pero a medida que los sistemas de software aumentan en escala, la eficiencia computacional se ha convertido en un cuello de botella crítico. Actualmente, estos modelos se basan en un paradigma basado en texto que trata el código fuente como una secuencia lineal de tokens, lo que conlleva un aumento lineal en la longitud del contexto y los costos computacionales asociados. El rápido avance de los Modelos de Lenguaje Multimodales (MLLM) introduce una oportunidad para optimizar la eficiencia representando el código fuente como imágenes renderizadas. A diferencia del texto, que es difícil de comprimir sin perder significado semántico, la modalidad de imagen es inherentemente adecuada para la compresión. Al ajustar la resolución, las imágenes pueden escalarse a una fracción de su costo original en tokens mientras siguen siendo reconocibles para los modelos con capacidades visuales. Para explorar la viabilidad de este enfoque, realizamos el primer estudio sistemático sobre la efectividad de los MLLM para la comprensión de código. Nuestros experimentos revelan que: (1) los MLLM pueden comprender código efectivamente con una reducción sustancial de tokens, logrando compresiones de hasta 8x; (2) los MLLM pueden aprovechar eficazmente pistas visuales como el resaltado de sintaxis, mejorando el rendimiento en completado de código bajo compresiones de 4x; y (3) tareas de comprensión de código como la detección de clones muestran una resistencia excepcional a la compresión visual, con algunas tasas de compresión incluso superando ligeramente a las entradas de texto sin procesar. Nuestros hallazgos destacan tanto el potencial como las limitaciones actuales de los MLLM en la comprensión de código, lo que señala un cambio hacia la representación de código en modalidad de imagen como una vía para una inferencia más eficiente.
English
Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.