ChatPaper.aiChatPaper

VCode: un Benchmark de Codificación Multimodal con SVG como Representación Visual Simbólica

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

November 4, 2025
Autores: Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
cs.AI

Resumen

El código ha surgido como un medio preciso y ejecutable para el razonamiento y la acción en la era de los agentes. Sin embargo, el progreso se ha centrado principalmente en tareas centradas en el lenguaje, como la síntesis y depuración de programas, dejando la codificación centrada en lo visual poco explorada. Inspirados en cómo los humanos razonan sobre bocetos, proponemos el código SVG como una representación visual compacta, interpretable y ejecutable. Presentamos VCode, un benchmark que replantea la comprensión multimodal como generación de código: dada una imagen, un modelo debe producir SVG que preserve el significado simbólico para un razonamiento posterior. VCode abarca tres dominios: sentido común general (MM-Vet), disciplinas profesionales (MMMU) y percepción centrada en lo visual (CV-Bench). Para evaluar la fidelidad simbólica, proponemos CodeVQA, un novedoso protocolo de evaluación en el que un modelo de política responde preguntas sobre SVG renderizados; las respuestas correctas indican una preservación simbólica fiel. Empíricamente, los modelos de lenguaje visual (VLM) de vanguardia tienen dificultades para generar SVG fieles, revelando una brecha persistente entre la codificación centrada en el lenguaje y la centrada en lo visual. Para cerrar esta brecha, presentamos VCoder, un marco agéntico que aumenta los VLM en dos ejes: (i) Pensar con Revisión, que analiza iterativamente las discrepancias y refina el código SVG; y (ii) Actuar con Herramientas Visuales, donde detectores y analizadores proporcionan pistas estructuradas como objetos, formas y texto más allá de la capacidad intrínseca del modelo. En todos los benchmarks, los VLM de vanguardia con fuertes capacidades de razonamiento obtienen buenas puntuaciones generales, pero siguen siendo limitados en conocimiento profesional y razonamiento 3D. VCoder ofrece una ganancia general de 12.3 puntos sobre el mejor modelo, Claude-4-Opus. Estudios humanos muestran que tanto humanos como VLM obtienen peores resultados en SVG renderizados; sin embargo, su consistencia revela la promesa de la representación visual simbólica. El benchmark y el código están disponibles en https://github.com/CSU-JPG/VCode.
English
Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.
PDF1013December 2, 2025