CodeOCR: Sull'efficacia dei modelli linguistici visivi nella comprensione del codice
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
February 2, 2026
Autori: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu
cs.AI
Abstract
I Large Language Model (LLM) hanno ottenuto un notevole successo nella comprensione del codice sorgente, tuttavia, con l'aumentare della scala dei sistemi software, l'efficienza computazionale è diventata un collo di bottiglia critico. Attualmente, questi modelli si basano su un paradigma testuale che tratta il codice sorgente come una sequenza lineare di token, il che comporta un aumento lineare della lunghezza del contesto e dei relativi costi computazionali. Il rapido avanzamento dei Multimodal LLM (MLLM) introduce un'opportunità per ottimizzare l'efficienza rappresentando il codice sorgente come immagini renderizzate. A differenza del testo, che è difficile da comprimere senza perdere significato semantico, la modalità immagine è intrinsecamente adatta alla compressione. Regolando la risoluzione, le immagini possono essere ridimensionate a una frazione del loro costo originale in token rimanendo riconoscibili per i modelli abilitati alla visione. Per esplorare la fattibilità di questo approccio, conduciamo il primo studio sistematico sull'efficacia degli MLLM per la comprensione del codice. I nostri esperimenti rivelano che: (1) gli MLLM possono comprendere efficacemente il codice con una sostanziale riduzione dei token, raggiungendo compressioni fino a 8x; (2) gli MLLM possono sfruttare efficacemente indizi visivi come l'evidenziazione della sintassi, migliorando le prestazioni di completamento del codice sotto compressione 4x; e (3) compiti di comprensione del codice come il rilevamento di cloni mostrano un'eccellente resilienza alla compressione visiva, con alcuni rapporti di compressione che addirittura superano leggermente gli input di testo grezzo. Le nostre scoperte evidenziano sia il potenziale che le attuali limitazioni degli MLLM nella comprensione del codice, indicando uno spostamento verso la rappresentazione del codice in modalità immagine come percorso per un'inferenza più efficiente.
English
Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.