VFIG : Vectorisation de figures complexes en SVG avec des modèles vision-langage
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
March 25, 2026
Auteurs: Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna
cs.AI
Résumé
Les graphiques vectoriels adaptables (SVG) sont un format essentiel pour l'illustration technique et la conception numérique, offrant une indépendance de résolution précise et une éditabilité sémantique flexible. En pratique, cependant, les fichiers sources vectoriels originaux sont souvent perdus ou inaccessibles, ne laissant que des versions rasterisées « plates » (par exemple, PNG ou JPEG) difficiles à modifier ou à mettre à l'échelle. La reconstruction manuelle de ces figures est un processus prohibitivement laborieux, nécessitant une expertise spécialisée pour retrouver l'intention géométrique originale. Pour combler cette lacune, nous proposons VFIG, une famille de modèles vision-langage entraînés pour la conversion de figures en SVG complexes et de haute fidélité. Bien que cette tâche soit intrinsèquement basée sur les données, les ensembles de données existants sont généralement de petite échelle et manquent de la complexité des diagrammes professionnels. Nous résolvons ce problème en introduisant VFIG-DATA, un jeu de données à grande échelle de 66 000 paires figure-SVG de haute qualité, constitué à partir d'un mélange diversifié de figures issues de publications scientifiques réelles et de diagrammes générés de manière procédurale. Reconnaissant que les SVG sont composés de primitives récurrentes et de structures locales hiérarchiques, nous introduisons un curriculum d'apprentissage allant du grossier au fin qui commence par un ajustement supervisé (SFT) pour apprendre les primitives atomiques et passe à un raffinement par apprentissage par renforcement (RL) pour optimiser la fidélité globale du diagramme, la cohérence de la mise en page et les cas limites topologiques. Enfin, nous présentons VFIG-BENCH, une suite d'évaluation complète avec de nouvelles métriques conçues pour mesurer l'intégrité structurelle des figures complexes. VFIG obtient des performances à la pointe de l'état de l'art parmi les modèles open source et est comparable à GPT-5.2, atteignant un score VLM-Judge de 0,829 sur VFIG-BENCH.
English
Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.