VFIG: Vektorisieren komplexer Figuren in SVG mit Vision-Language-Modellen

Zusammenfassung

Skalierbare Vektorgrafiken (SVG) sind ein essenzielles Format für technische Illustrationen und digitales Design, da sie präise Auflösungsunabhängigkeit und flexible semantische Editierbarkeit bieten. In der Praxis gehen die ursprünglichen Vektor-Quelldateien jedoch häufig verloren oder sind nicht zugänglich, sodass nur "flache" rasterisierte Versionen (z.B. PNG oder JPEG) verbleiben, die sich nur schwer modifizieren oder skalieren lassen. Die manuelle Rekonstruktion solcher Abbildungen ist ein prohibitiv arbeitsintensiver Prozess, der spezialisiertes Fachwissen erfordert, um die ursprüngliche geometrische Intention wiederherzustellen. Um diese Lücke zu schließen, stellen wir VFIG vor, eine Familie von Vision-Language-Modellen, die für die komplexe und hochpräzise Konvertierung von Abbildungen in SVGs trainiert wurde. Obwohl diese Aufgabe inhärent datengesteuert ist, sind bestehende Datensätze typischerweise klein und weisen nicht die Komplexität professioneller Diagramme auf. Wir adressieren dies durch die Einführung von VFIG-DATA, einem umfangreichen Datensatz mit 66.000 hochwertigen Abbildungs-SVG-Paaren, die aus einer diversen Mischung realer Abbildungen aus wissenschaftlichen Publikationen und prozedural generierten Diagrammen kuratiert wurden. Da SVGs aus sich wiederholenden Primitiven und hierarchischen lokalen Strukturen bestehen, führen wir einen Training-Curriculum vom Groben zum Feinen ein, das mit supervised Fine-Tuning (SFT) beginnt, um atomare Primitive zu erlernen, und zu Reinforcement Learning (RL)-Verfeinerung übergeht, um die globale Diagrammtreue, Layoutkonsistenz und topologische Grenzfälle zu optimieren. Abschließend stellen wir VFIG-BENCH vor, eine umfassende Evaluierungssuite mit neuartigen Metriken, die darauf ausgelegt sind, die strukturelle Integrität komplexer Abbildungen zu messen. VFIG erzielt state-of-the-art Leistung unter Open-Source-Modellen und liegt auf Augenhöhe mit GPT-5.2, mit einem VLM-Judge-Score von 0,829 auf VFIG-BENCH.

English

Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.

VFIG: Vektorisieren komplexer Figuren in SVG mit Vision-Language-Modellen

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Zusammenfassung

Support