VCode: um Benchmark de Codificação Multimodal com SVG como Representação Visual Simbólica

Resumo

O código emergiu como um meio preciso e executável para raciocínio e ação na era dos agentes. No entanto, o progresso tem-se focado largamente em tarefas centradas na linguagem, como síntese e depuração de programas, deixando a codificação centrada no visual pouco explorada. Inspirados pela forma como os humanos raciocinam sobre esboços, defendemos o código SVG como uma representação visual compacta, interpretável e executável. Apresentamos o VCode, um benchmark que reformula a compreensão multimodal como geração de código: dada uma imagem, um modelo deve produzir SVG que preserve o significado simbólico para raciocínio subsequente. O VCode abrange três domínios - senso comum geral (MM-Vet), disciplinas profissionais (MMMU) e perceção centrada no visual (CV-Bench). Para avaliar a fidelidade simbólica, propomos o CodeVQA, um protocolo de avaliação inovador no qual um modelo de política responde a perguntas sobre SVGs renderizados; respostas corretas indicam uma preservação simbólica fiel. Empiricamente, os VLMs de vanguarda lutam para gerar SVGs fiéis, revelando uma lacuna persistente entre a codificação centrada na linguagem e a centrada no visual. Para colmatar esta lacuna, introduzimos o VCoder, uma estrutura agentiva que aumenta os VLMs ao longo de dois eixos: (i) Pensar com Revisão, que analisa iterativamente discrepâncias e refina o código SVG; e (ii) Agir com Ferramentas Visuais, onde detetores e analisadores fornecem pistas estruturadas, como objetos, formas e texto, para além da capacidade intrínseca do modelo. Nos benchmarks, os VLMs de vanguarda com fortes capacidades de raciocínio pontuam bem no geral, mas permanecem limitados em conhecimento profissional e raciocínio 3D. O VCoder proporciona um ganho geral de 12,3 pontos sobre o Claude-4-Opus, o modelo de melhor desempenho. Estudos humanos mostram que tanto humanos como VLMs têm pior desempenho em SVGs renderizados; a sua consistência revela a promessa da representação visual simbólica. O benchmark e o código estão disponíveis em https://github.com/CSU-JPG/VCode.

English

Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.