CodeOCR : Sur l'efficacité des modèles vision-langage dans la compréhension du code
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
February 2, 2026
papers.authors: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) ont obtenu un succès remarquable dans la compréhension du code source, mais avec l'augmentation de l'échelle des systèmes logiciels, l'efficacité computationnelle est devenue un goulot d'étranglement critique. Actuellement, ces modèles s'appuient sur un paradigme textuel qui traite le code source comme une séquence linéaire de tokens, ce qui entraîne une augmentation linéaire de la longueur du contexte et des coûts computationnels associés. Les progrès rapides des LLM multimodaux (MLLM) ouvrent une opportunité d'optimiser l'efficacité en représentant le code source sous forme d'images rendues. Contrairement au texte, difficile à compresser sans perdre de sens sémantique, la modalité image est intrinsèquement adaptée à la compression. En ajustant la résolution, les images peuvent être réduites à une fraction de leur coût initial en tokens tout en restant reconnaissables par les modèles capables de traitement visuel. Pour explorer la faisabilité de cette approche, nous menons la première étude systématique sur l'efficacité des MLLM pour la compréhension du code. Nos expériences révèlent que : (1) les MLLM peuvent comprendre efficacement le code avec une réduction substantielle de tokens, atteignant jusqu'à 8x de compression ; (2) les MLLM peuvent exploiter efficacement des indices visuels tels que la coloration syntaxique, améliorant les performances de complétion de code sous une compression de 4x ; et (3) les tâches de compréhension du code comme la détection de clones présentent une résistance exceptionnelle à la compression visuelle, certains taux de compression surpassant même légèrement les entrées textuelles brutes. Nos résultats soulignent à la fois le potentiel et les limitations actuelles des MLLM dans la compréhension du code, indiquant une transition vers la représentation du code par modalité image comme voie vers une inférence plus efficace.
English
Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.