VFIG: Векторизация сложных изображений в формат SVG с использованием моделей компьютерного зрения и обработки естественного языка
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
March 25, 2026
Авторы: Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna
cs.AI
Аннотация
Масштабируемая векторная графика (SVG) является ключевым форматом для технических иллюстраций и цифрового дизайна, обеспечивая точную независимость от разрешения и гибкую семантическую редактируемость. Однако на практике исходные векторные файлы часто оказываются утерянными или недоступными, оставляя лишь «плоские» растровые версии (например, PNG или JPEG), которые сложно изменять или масштабировать. Ручное восстановление таких изображений представляет собой чрезвычайно трудоемкий процесс, требующий специальных знаний для воссоздания исходного геометрического замысла. Чтобы устранить этот разрыв, мы предлагаем VFIG — семейство Vision-Language Models, обученных для сложного и высококачественного преобразования изображений в SVG. Хотя эта задача по своей природе является data-driven, существующие наборы данных обычно имеют небольшой масштаб и не отражают сложности профессиональных диаграмм. Мы решаем эту проблему, представляя VFIG-DATA — крупномасштабный набор данных, содержащий 66 тыс. пар «изображение-SVG» высокого качества, собранных из разнообразных реальных научных иллюстраций и процедурно сгенерированных диаграмм. Учитывая, что SVG состоят из повторяющихся примитивов и иерархических локальных структур, мы вводим поэтапную учебную программу (coarse-to-fine), которая начинается с контролируемого тонкого обучения (SFT) для изучения атомарных примитивов и переходит к refinement с помощью обучения с подкреплением (RL) для оптимизации глобальной точности диаграммы, согласованности компоновки и обработки топологических крайних случаев. Наконец, мы представляем VFIG-BENCH — комплексный набор для оценки с новыми метриками, предназначенными для измерения структурной целостности сложных изображений. VFIG демонстрирует наилучшую производительность среди открытых моделей и показывает результаты на уровне GPT-5.2, достигая оценки VLM-Judge 0.829 на VFIG-BENCH.
English
Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.