VCode: многомодальный бенчмарк программирования с SVG в качестве символического визуального представления

Аннотация

Код стал точной и исполняемой средой для рассуждений и действий в эпоху агентов. Однако прогресс в основном был сосредоточен на языко-ориентированных задачах, таких как синтез программ и отладка, оставляя визуально-ориентированное программирование недостаточно изученным. Вдохновляясь тем, как люди рассуждают с помощью набросков, мы предлагаем SVG-код в качестве компактного, интерпретируемого и исполняемого визуального представления. Мы представляем VCode — эталонный тест, который переосмысливает мультимодальное понимание как генерацию кода: по заданному изображению модель должна генерировать SVG, сохраняющий символическое значение для последующих рассуждений. VCode охватывает три области: общие знания (MM-Vet), профессиональные дисциплины (MMMU) и визуально-ориентированное восприятие (CV-Bench). Для оценки символической точности мы предлагаем CodeVQA — новый протокол оценки, в котором модель-политика отвечает на вопросы по отрисованным SVG; правильные ответы указывают на достоверное сохранение символики. Экспериментально передовые VLM испытывают трудности с генерацией точных SVG, выявляя устойчивый разрыв между языко-ориентированным и визуально-ориентированным программированием. Для устранения этого разрыва мы представляем VCoder — агентский фреймворк, который расширяет VLM по двум направлениям: (i) Мышление с ревизией, которое итеративно анализирует расхождения и уточняет SVG-код; и (ii) Действие с визуальными инструментами, где детекторы и парсеры предоставляют структурированные подсказки, такие как объекты, формы и текст, выходящие за пределы внутренних возможностей модели. На всех эталонных тестах передовые VLM с сильными возможностями рассуждений показывают хорошие общие результаты, но остаются ограниченными в профессиональных знаниях и 3D-рассуждениях. VCoder обеспечивает общее улучшение на 12,3 пункта по сравнению с лучшей моделью Claude-4-Opus. Исследования с участием людей показывают, что как люди, так и VLM работают хуже на отрисованных SVG, но их согласованность раскрывает перспективность символического визуального представления. Эталонный тест и код доступны по адресу https://github.com/CSU-JPG/VCode.

English

Code has emerged as a precise and executable medium for reasoning and action in the agent era. Yet, progress has largely focused on language-centric tasks such as program synthesis and debugging, leaving visual-centric coding underexplored. Inspired by how humans reason over sketches, we advocate SVG code as a compact, interpretable, and executable visual representation. We introduce VCode, a benchmark that reframes multimodal understanding as code generation: given an image, a model must produce SVG that preserves symbolic meaning for downstream reasoning. VCode covers three domains - general commonsense (MM-Vet), professional disciplines (MMMU), and visual-centric perception (CV-Bench). To assess symbolic fidelity, we propose CodeVQA, a novel evaluation protocol in which a policy model answers questions over rendered SVGs; correct answers indicate faithful symbolic preservation. Empirically, frontier VLMs struggle to generate faithful SVGs, revealing a persistent gap between language-centric and visual-centric coding. To close this gap, we introduce VCoder, an agentic framework that augments VLMs along two axes: (i) Thinking with Revision, which iteratively analyzes discrepancies and refines SVG code; and (ii) Acting with Visual Tools, where detectors and parsers supply structured cues such as objects, shapes, and text beyond the model's intrinsic capacity. Across benchmarks, frontier VLMs with strong reasoning capabilities score well overall yet remain limited in professional knowledge and 3D reasoning. VCoder delivers a 12.3-point overall gain over the top-performing Claude-4-Opus. Human studies show that both humans and VLMs perform worse on rendered SVGs, their consistency reveals the promise of symbolic visual representation. The benchmark and code are available at https://github.com/CSU-JPG/VCode.

VCode: многомодальный бенчмарк программирования с SVG в качестве символического визуального представления

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

Аннотация

Support