SVGenius: Valutazione delle capacità dei Modelli Linguistici di Grande Dimensione nella comprensione, modifica e generazione di SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
June 3, 2025
Autori: Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Abstract
I Large Language Model (LLM) e i Multimodal LLM hanno dimostrato capacità promettenti per l'elaborazione di SVG, ma i benchmark esistenti soffrono di una copertura limitata del mondo reale, mancanza di stratificazione della complessità e paradigmi di valutazione frammentati. Introduciamo SVGenius, un benchmark completo che comprende 2.377 query attraverso tre dimensioni progressive: comprensione, modifica e generazione. Costruito su dati del mondo reale provenienti da 24 domini applicativi con una stratificazione sistematica della complessità, SVGenius valuta i modelli attraverso 8 categorie di task e 18 metriche. Abbiamo valutato 22 modelli principali che coprono diverse scale, architetture, paradigmi di addestramento e livelli di accessibilità. La nostra analisi rivela che, sebbene i modelli proprietari superino significativamente le controparti open-source, tutti i modelli mostrano un degrado sistematico delle prestazioni con l'aumentare della complessità, indicando limitazioni fondamentali negli approcci attuali; tuttavia, l'addestramento potenziato dal ragionamento si dimostra più efficace del semplice scaling per superare queste limitazioni, sebbene il trasferimento di stile rimanga la capacità più impegnativa per tutti i tipi di modelli. SVGenius stabilisce il primo framework di valutazione sistematica per l'elaborazione di SVG, fornendo intuizioni cruciali per lo sviluppo di modelli di grafica vettoriale più capaci e per l'avanzamento delle applicazioni di progettazione grafica automatizzata. Appendice e materiali supplementari (inclusi tutti i dati e il codice) sono disponibili all'indirizzo https://zju-real.github.io/SVGenius.
English
Large Language Models (LLMs) and Multimodal LLMs have shown promising
capabilities for SVG processing, yet existing benchmarks suffer from limited
real-world coverage, lack of complexity stratification, and fragmented
evaluation paradigms. We introduce SVGenius, a comprehensive benchmark
comprising 2,377 queries across three progressive dimensions: understanding,
editing, and generation. Built on real-world data from 24 application domains
with systematic complexity stratification, SVGenius evaluates models through 8
task categories and 18 metrics. We assess 22 mainstream models spanning
different scales, architectures, training paradigms, and accessibility levels.
Our analysis reveals that while proprietary models significantly outperform
open-source counterparts, all models exhibit systematic performance degradation
with increasing complexity, indicating fundamental limitations in current
approaches; however, reasoning-enhanced training proves more effective than
pure scaling for overcoming these limitations, though style transfer remains
the most challenging capability across all model types. SVGenius establishes
the first systematic evaluation framework for SVG processing, providing crucial
insights for developing more capable vector graphics models and advancing
automated graphic design applications. Appendix and supplementary materials
(including all data and code) are available at
https://zju-real.github.io/SVGenius.