VCode: Eine multimodale Codierungs-Benchmark mit SVG als symbolische visuelle Repräsentation

papers.abstract

Code hat sich im Agentenzeitalter als präzises und ausführbares Medium für das Schließen und Handeln etabliert. Dennoch konzentrierte sich der Fortschritt bislang weitgehend auf sprachzentrierte Aufgaben wie Programmsynthese und Debugging, während visuell-zentriertes Codieren kaum erforscht wurde. Inspiriert davon, wie Menschen mit Skizzen schlussfolgern, plädieren wir für SVG-Code als kompakte, interpretierbare und ausführbare visuelle Repräsentation. Wir stellen VCode vor, einen Benchmark, der multimodales Verständnis als Code-Generierung neu definiert: Gegeben ein Bild muss ein Modell SVG-Code erzeugen, der die symbolische Bedeutung für nachgelagertes Schließen bewahrt. VCode umfasst drei Domänen – allgemeinen Common Sense (MM-Vet), professionelle Disziplinen (MMMU) und visuell-zentrierte Wahrnehmung (CV-Bench). Um die symbolische Treue zu bewerten, schlagen wir CodeVQA vor, ein neuartiges Evaluierungsprotokoll, bei dem ein Policy-Modell Fragen zu gerenderten SVGs beantwortet; korrekte Antworten zeigen eine getreue symbolische Bewahrung an. Empirisch kämpfen führende VLMs (Vision-Language Models) damit, treue SVGs zu generieren, was eine anhaltende Lücke zwischen sprachzentriertem und visuell-zentriertem Codieren offenbart. Um diese Lücke zu schließen, führen wir VCoder ein, ein agentenbasiertes Framework, das VLMs entlang zweier Achsen erweitert: (i) *Thinking with Revision*, das diskrepante Stellen iterativ analysiert und SVG-Code verfeinert; und (ii) *Acting with Visual Tools*, bei dem Detektoren und Parser strukturierte Hinweise wie Objekte, Formen und Text liefern, die über die intrinsischen Fähigkeiten des Modells hinausgehen. Über Benchmarks hinweg erzielen führende VLMs mit starken Reasoning-Fähigkeiten insgesamt gute Werte, bleiben aber in professionellem Wissen und 3D-Reasoning begrenzt. VCoder erzielt einen Gesamtzuwachs von 12,3 Punkten gegenüber dem leistungsstärksten Claude-4-Opus. Humanstudien zeigen, dass sowohl Menschen als auch VLMs bei gerenderten SVGs schlechter abschneiden; ihre Konsistenz offenbart jedoch das Potenzial symbolischer visueller Repräsentation. Der Benchmark und Code sind verfügbar unter https://github.com/CSU-JPG/VCode.

English

Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.

VCode: Eine multimodale Codierungs-Benchmark mit SVG als symbolische visuelle Repräsentation

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

papers.abstract

Support