VFIG: Vettorializzazione di Figure Complesse in SVG con Modelli Visione-Linguaggio
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
March 25, 2026
Autori: Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna
cs.AI
Abstract
I formati Scalable Vector Graphics (SVG) sono essenziali per l'illustrazione tecnica e il design digitale, offrendo un'indipendenza dalla risoluzione di precisione e un'editabilità semantica flessibile. Tuttavia, nella pratica, i file vettoriali originali vengono spesso persi o risultano inaccessibili, lasciando disponibili solo versioni rasterizzate "piatte" (ad esempio, PNG o JPEG) che sono difficili da modificare o ridimensionare. Ricostruire manualmente queste figure è un processo proibitivamente laborioso, che richiede competenze specializzate per recuperare l'intento geometrico originale. Per colmare questa lacuna, proponiamo VFIG, una famiglia di Vision-Language Models addestrati per la conversione da figura a SVG complessa e ad alta fedeltà. Sebbene questo compito sia intrinsecamente basato sui dati, i dataset esistenti sono generalmente di piccole dimensioni e privi della complessità dei diagrammi professionali. Affrontiamo questo problema introducendo VFIG-DATA, un dataset su larga scala composto da 66.000 coppie figura-SVG di alta qualità, selezionate da un mix vario di figure tratte da articoli reali e diagrammi generati proceduralmente. Riconoscendo che gli SVG sono composti da primitive ricorrenti e strutture locali gerarchiche, introduciamo un curriculum di addestramento dal grossolano al fine che inizia con un fine-tuning supervisionato (SFT) per apprendere le primitive atomiche e passa a una raffinazione con apprendimento per rinforzo (RL) per ottimizzare la fedeltà globale del diagramma, la coerenza del layout e i casi limite topologici. Infine, introduciamo VFIG-BENCH, una suite di valutazione completa con metriche innovative progettate per misurare l'integrità strutturale di figure complesse. VFIG raggiunge prestazioni all'avanguardia tra i modelli open-source e si comporta in modo analogo a GPT-5.2, ottenendo un punteggio VLM-Judge di 0.829 su VFIG-BENCH.
English
Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.