ChatPaper.aiChatPaper

VCode: un benchmark di codifica multimodale con SVG come rappresentazione visiva simbolica

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

November 4, 2025
Autori: Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
cs.AI

Abstract

Nel corso dell'era degli agenti intelligenti, il codice è emerso come un mezzo eseguibile e di precisione per il ragionamento e l'azione. Tuttavia, i progressi si sono concentrati prevalentemente su attività incentrate sul linguaggio, come la sintesi e il debugging di programmi, lasciando inesplorata la programmazione di tipo visivo. Ispirati dal modo in cui gli esseri umani ragionano sugli schizzi, proponiamo il codice SVG come rappresentazione visiva compatta, interpretabile ed eseguibile. Presentiamo VCode, un benchmark che riformula la comprensione multimodale come generazione di codice: dato un'immagine, un modello deve produrre SVG che preservi il significato simbolico per un ragionamento a valle. VCode copre tre domini: senso comune generale (MM-Vet), discipline professionali (MMMU) e percezione visivo-centrica (CV-Bench). Per valutare la fedeltà simbolica, proponiamo CodeVQA, un nuovo protocollo di valutazione in cui un modello policy risponde a domande sugli SVG renderizzati; le risposte corrette indicano una preservazione simbolica fedele. Empiricamente, i modelli linguistico-visivi (VLM) all'avanguardia faticano a generare SVG fedeli, rivelando un divario persistente tra la programmazione linguistica e quella visiva. Per colmare questa lacuna, introduciamo VCoder, un framework agente che potenzia i VLM lungo due assi: (i) *Pensare con Revisione*, che analizza iterativamente le discrepanze e affina il codice SVG; e (ii) *Agire con Strumenti Visivi*, dove rilevatori e parser forniscono suggerimenti strutturati come oggetti, forme e testo, oltre la capacità intrinseca del modello. Attraverso i benchmark, i VLM all'avanguardia con forti capacità di ragionamento ottengono punteggi complessivamente buoni, ma rimangono limitati nella conoscenza professionale e nel ragionamento 3D. VCoder garantisce un miglioramento complessivo di 12,3 punti rispetto al top performer Claude-4-Opus. Studi umani mostrano che sia gli esseri umani che i VLM performano peggio sugli SVG renderizzati; la loro coerenza, tuttavia, rivela la promessa della rappresentazione visiva simbolica. Il benchmark e il codice sono disponibili su https://github.com/CSU-JPG/VCode.
English
Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.
PDF1013December 2, 2025