CodeOCR: Sobre a Eficácia dos Modelos de Linguagem Visual na Compreensão de Código

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) alcançaram sucesso notável na compreensão de código-fonte, porém, à medida que os sistemas de software aumentam em escala, a eficiência computacional tornou-se um gargalo crítico. Atualmente, esses modelos dependem de um paradigma baseado em texto que trata o código-fonte como uma sequência linear de tokens, o que leva a um aumento linear no comprimento do contexto e nos custos computacionais associados. O rápido avanço dos LLMs Multimodais (MLLMs) introduz uma oportunidade de otimizar a eficiência representando o código-fonte como imagens renderizadas. Diferente do texto, que é difícil de comprimir sem perder significado semântico, a modalidade de imagem é intrinsecamente adequada para compressão. Ao ajustar a resolução, as imagens podem ser redimensionadas para uma fração do seu custo original em tokens, permanecendo reconhecíveis para modelos com capacidade visual. Para explorar a viabilidade dessa abordagem, realizamos o primeiro estudo sistemático sobre a eficácia dos MLLMs para compreensão de código. Nossos experimentos revelam que: (1) Os MLLMs podem compreender código efetivamente com redução substancial de tokens, alcançando até 8x de compressão; (2) Os MLLMs podem aproveitar efetivamente pistas visuais como realce de sintaxe, melhorando o desempenho de conclusão de código sob compressão de 4x; e (3) Tarefas de compreensão de código como detecção de clones exibem resiliência excepcional à compressão visual, com algumas taxas de compressão até superando ligeiramente as entradas de texto bruto. Nossas descobertas destacam tanto o potencial quanto as limitações atuais dos MLLMs na compreensão de código, apontando para uma mudança em direção à representação de código por modalidade visual como um caminho para inferência mais eficiente.

English

Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.

CodeOCR: Sobre a Eficácia dos Modelos de Linguagem Visual na Compreensão de Código

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Resumo

Support