VFIG: Vetorização de Figuras Complexas em SVG com Modelos de Visão e Linguagem

Resumo

Os Gráficos Vetoriais Escaláveis (SVG) são um formato essencial para ilustração técnica e design digital, oferecendo independência de resolução precisa e editabilidade semântica flexível. Na prática, no entanto, os arquivos vetoriais de origem originais são frequentemente perdidos ou inacessíveis, restando apenas versões rasterizadas "planas" (por exemplo, PNG ou JPEG) que são difíceis de modificar ou dimensionar. A reconstrução manual dessas figuras é um processo proibitivamente intensivo em mão de obra, exigindo conhecimentos especializados para recuperar a intenção geométrica original. Para preencher essa lacuna, propomos o VFIG, uma família de Modelos de Visão e Linguagem treinados para a conversão complexa e de alta fidelidade de figuras para SVG. Embora essa tarefa seja inerentemente orientada por dados, os conjuntos de dados existentes são tipicamente de pequena escala e carecem da complexidade dos diagramas profissionais. Resolvemos isso introduzindo o VFIG-DATA, um conjunto de dados em larga escala com 66K pares de figura-SVG de alta qualidade, curados a partir de uma mistura diversificada de figuras reais de artigos científicos e diagramas gerados proceduralmente. Reconhecendo que os SVGs são compostos por primitivas recorrentes e estruturas locais hierárquicas, introduzimos um currículo de treinamento do geral para o específico (coarse-to-fine) que começa com o ajuste fino supervisionado (SFT) para aprender primitivas atômicas e transita para um refinamento por aprendizagem por reforço (RL) para otimizar a fidelidade global do diagrama, a consistência do layout e os casos extremos topológicos. Finalmente, introduzimos o VFIG-BENCH, um conjunto abrangente de avaliação com métricas novas concebidas para medir a integridade estrutural de figuras complexas. O VFIG atinge um desempenho de ponta entre os modelos de código aberto e apresenta um desempenho equivalente ao GPT-5.2, alcançando uma pontuação VLM-Judge de 0.829 no VFIG-BENCH.

English

Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.