VFIG: Vectorización de Figuras Complejas en SVG con Modelos de Visión y Lenguaje
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
March 25, 2026
Autores: Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna
cs.AI
Resumen
Los Gráficos Vectoriales Escalables (SVG) son un formato esencial para la ilustración técnica y el diseño digital, ya que ofrecen una independencia de resolución precisa y una flexibilidad de edición semántica. Sin embargo, en la práctica, los archivos vectoriales originales se pierden o quedan inaccesibles con frecuencia, dejando solo versiones rasterizadas "planas" (por ejemplo, PNG o JPEG) que son difíciles de modificar o escalar. Reconstruir estas figuras manualmente es un proceso prohibitivamente intensivo en mano de obra, que requiere experiencia especializada para recuperar la intención geométrica original. Para cerrar esta brecha, proponemos VFIG, una familia de Modelos de Visión y Lenguaje entrenados para la conversión de figuras a SVG compleja y de alta fidelidad. Si bien esta tarea es inherentemente basada en datos, los conjuntos de datos existentes son típicamente de pequeña escala y carecen de la complejidad de los diagramas profesionales. Abordamos esto presentando VFIG-DATA, un conjunto de datos a gran escala de 66K pares de figuras-SVG de alta calidad, recopilados a partir de una mezcla diversa de figuras de artículos científicos del mundo real y diagramas generados proceduralmente. Reconociendo que los SVG están compuestos por primitivas recurrentes y estructuras locales jerárquicas, introducimos un currículum de entrenamiento de grueso a fino que comienza con un ajuste fino supervisado (SFT) para aprender primitivas atómicas y transiciona a un refinamiento por aprendizaje por refuerzo (RL) para optimizar la fidelidad global del diagrama, la consistencia del diseño y los casos extremos topológicos. Finalmente, presentamos VFIG-BENCH, una suite de evaluación integral con métricas novedosas diseñadas para medir la integridad estructural de figuras complejas. VFIG logra un rendimiento de vanguardia entre los modelos de código abierto y se desempeña a la par con GPT-5.2, alcanzando una puntuación VLM-Judge de 0.829 en VFIG-BENCH.
English
Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.