SVGenius: Avaliação de Modelos de Linguagem no Entendimento, Edição e Geração de SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
June 3, 2025
Autores: Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) e LLMs Multimodais têm demonstrado capacidades promissoras para o processamento de SVG, mas os benchmarks existentes sofrem com cobertura limitada do mundo real, falta de estratificação de complexidade e paradigmas de avaliação fragmentados. Apresentamos o SVGenius, um benchmark abrangente que compreende 2.377 consultas em três dimensões progressivas: compreensão, edição e geração. Construído com base em dados do mundo real de 24 domínios de aplicação com estratificação sistemática de complexidade, o SVGenius avalia modelos por meio de 8 categorias de tarefas e 18 métricas. Avaliamos 22 modelos principais que abrangem diferentes escalas, arquiteturas, paradigmas de treinamento e níveis de acessibilidade. Nossa análise revela que, embora os modelos proprietários superem significativamente suas contrapartes de código aberto, todos os modelos exibem degradação sistemática de desempenho com o aumento da complexidade, indicando limitações fundamentais nas abordagens atuais; no entanto, o treinamento aprimorado por raciocínio prova-se mais eficaz do que o simples escalonamento para superar essas limitações, embora a transferência de estilo continue sendo a capacidade mais desafiadora em todos os tipos de modelos. O SVGenius estabelece o primeiro framework de avaliação sistemática para o processamento de SVG, fornecendo insights cruciais para o desenvolvimento de modelos de gráficos vetoriais mais capazes e o avanço de aplicações automatizadas de design gráfico. O apêndice e materiais suplementares (incluindo todos os dados e códigos) estão disponíveis em https://zju-real.github.io/SVGenius.
English
Large Language Models (LLMs) and Multimodal LLMs have shown promising
capabilities for SVG processing, yet existing benchmarks suffer from limited
real-world coverage, lack of complexity stratification, and fragmented
evaluation paradigms. We introduce SVGenius, a comprehensive benchmark
comprising 2,377 queries across three progressive dimensions: understanding,
editing, and generation. Built on real-world data from 24 application domains
with systematic complexity stratification, SVGenius evaluates models through 8
task categories and 18 metrics. We assess 22 mainstream models spanning
different scales, architectures, training paradigms, and accessibility levels.
Our analysis reveals that while proprietary models significantly outperform
open-source counterparts, all models exhibit systematic performance degradation
with increasing complexity, indicating fundamental limitations in current
approaches; however, reasoning-enhanced training proves more effective than
pure scaling for overcoming these limitations, though style transfer remains
the most challenging capability across all model types. SVGenius establishes
the first systematic evaluation framework for SVG processing, providing crucial
insights for developing more capable vector graphics models and advancing
automated graphic design applications. Appendix and supplementary materials
(including all data and code) are available at
https://zju-real.github.io/SVGenius.