ChatPaper.aiChatPaper

CodeOCR: Zur Effektivität von Vision-Language-Modellen im Code-Verständnis

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

February 2, 2026
papers.authors: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge im Verständnis von Quellcode erzielt, doch mit zunehmender Größe von Softwaresystemen ist die Recheneffizienz zu einem kritischen Engpass geworden. Derzeit basieren diese Modelle auf einem textbasierten Paradigma, das Quellcode als lineare Sequenz von Tokens behandelt, was zu einem linearen Anstieg der Kontextlänge und der damit verbundenen Rechenkosten führt. Der rasante Fortschritt multimodaler LLMs (MLLMs) eröffnet die Möglichkeit, die Effizienz zu optimieren, indem Quellcode als gerenderte Bilder dargestellt wird. Im Gegensatz zu Text, der schwer zu komprimieren ist, ohne die semantische Bedeutung zu verlieren, eignet sich die Bildmodalität von Natur aus für Komprimierung. Durch Anpassung der Auflösung können Bilder auf einen Bruchteil ihrer ursprünglichen Token-Kosten skaliert werden, während sie für visuell fähige Modelle erkennbar bleiben. Um die Machbarkeit dieses Ansatzes zu untersuchen, führen wir die erste systematische Studie zur Effektivität von MLLMs für das Code-Verständnis durch. Unsere Experimente zeigen: (1) MLLMs können Code effektiv verstehen bei erheblicher Token-Reduzierung und erreichen bis zu 8-fache Kompression; (2) MLLMs können visuelle Hinweise wie Syntax-Hervorhebungen effektiv nutzen und verbessern die Code-Vervollständigungsleistung bei 4-facher Kompression; und (3) Code-Verständnisaufgaben wie Klonerkennung zeigen eine außergewöhnliche Widerstandsfähigkeit gegenüber visueller Kompression, wobei einige Kompressionsraten sogar geringfügig besser abschneiden als Rohtexteingaben. Unsere Ergebnisse unterstreichen sowohl das Potenzial als auch die aktuellen Grenzen von MLLMs im Code-Verständnis und weisen auf einen Wechsel hin zur Bildmodalität der Coderepräsentation als Weg zu effizienterem Inferieren.
English
Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.
PDF914February 8, 2026