VCode : un benchmark de codage multimodal utilisant le SVG comme représentation visuelle symbolique

papers.abstract

Le code est devenu un support précis et exécutable pour le raisonnement et l'action à l'ère des agents. Pourtant, les progrès se sont largement concentrés sur les tâches centrées sur le langage, comme la synthèse et le débogage de programmes, laissant le codage visuel sous-exploré. Inspirés par la façon dont les humains raisonnent à partir de croquis, nous proposons le code SVG comme une représentation visuelle compacte, interprétable et exécutable. Nous présentons VCode, un benchmark qui reformule la compréhension multimodale en génération de code : étant donnée une image, un modèle doit produire du SVG qui préserve la signification symbolique pour un raisonnement en aval. VCode couvre trois domaines : le bon sens général (MM-Vet), les disciplines professionnelles (MMMU) et la perception visuelle centrée (CV-Bench). Pour évaluer la fidélité symbolique, nous proposons CodeVQA, un nouveau protocole d'évaluation dans lequel un modèle politique répond à des questions sur des SVG rendus ; les réponses correctes indiquent une préservation symbolique fidèle. Empiriquement, les modèles de langage visuel (VLM) de pointe peinent à générer des SVG fidèles, révélant un écart persistant entre le codage centré sur le langage et le codage visuel. Pour combler cet écart, nous introduisons VCoder, un framework agentique qui améliore les VLM selon deux axes : (i) Penser avec Révision, qui analyse itérativement les écarts et affine le code SVG ; et (ii) Agir avec des Outils Visuels, où des détecteurs et analyseurs fournissent des indices structurés tels que des objets, des formes et du texte au-delà de la capacité intrinsèque du modèle. Sur les benchmarks, les VLM de pointe dotés de fortes capacités de raisonnement obtiennent de bons scores globaux mais restent limités en connaissances professionnelles et en raisonnement 3D. VCoder procure un gain global de 12,3 points par rapport au Claude-4-Opus le plus performant. Des études humaines montrent que les humains et les VLM obtiennent de moins bons résultats sur les SVG rendus, mais leur cohérence révèle la promesse de la représentation visuelle symbolique. Le benchmark et le code sont disponibles à l'adresse https://github.com/CSU-JPG/VCode.

English

Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.

VCode : un benchmark de codage multimodal utilisant le SVG comme représentation visuelle symbolique

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

papers.abstract

Support