ChatPaper.aiChatPaper

VCode: een multimodaal codeerbenchmark met SVG als symbolische visuele representatie

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

November 4, 2025
Auteurs: Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
cs.AI

Samenvatting

Code is naar voren gekomen als een precies en uitvoerbaar medium voor redeneren en handelen in het agententijdperk. Toch heeft de vooruitgang zich grotendeels gericht op taalkundige taken zoals programma-synthese en debugging, waardoor visueel gericht coderen onderbelicht is gebleven. Geïnspireerd door hoe mensen redeneren met schetsen, bepleiten we SVG-code als een compacte, interpreteerbare en uitvoerbare visuele representatie. We introduceren VCode, een benchmark die multimodaal begrip herformuleert als codegeneratie: gegeven een afbeelding moet een model SVG produceren die de symbolische betekenis behoudt voor downstream redeneren. VCode beslaat drie domeinen: algemeen gezond verstand (MM-Vet), professionele disciplines (MMMU) en visueel gerichte perceptie (CV-Bench). Om symbolische trouw te beoordelen, stellen we CodeVQA voor, een nieuw evaluatieprotocol waarbij een beleidsmodel vragen beantwoordt over gerenderde SVG's; correcte antwoorden duiden op getrouwe symbolische preservatie. Empirisch gezien worstelen voorhoede-VLM's met het genereren van getrouwe SVG's, wat een hardnekkige kloof tussen taalkundig en visueel gericht coderen blootlegt. Om deze kloof te dichten, introduceren we VCoder, een agent-gebaseerd framework dat VLM's versterkt langs twee assen: (i) Denken met Revisie, dat iteratief discrepanties analyseert en SVG-code verfijnt; en (ii) Handelen met Visuele Hulpmiddelen, waarbij detectors en parsers gestructureerde aanwijzingen leveren zoals objecten, vormen en tekst die verder gaan dan de intrinsieke capaciteit van het model. Over benchmarks heen scoren voorhoede-VLM's met sterke redeneervermogens over het algemeen goed, maar blijven beperkt in professionele kennis en 3D-redenering. VCoder behaalt een algehele winst van 12,3 punten ten opzichte van de best presterende Claude-4-Opus. Menselijke studies tonen aan dat zowel mensen als VLM's slechter presteren op gerenderde SVG's, maar hun consistentie toont de belofte van symbolische visuele representatie. De benchmark en code zijn beschikbaar op https://github.com/CSU-JPG/VCode.
English
Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.
PDF1013December 2, 2025