SVGenius : Évaluation des LLM dans la compréhension, l'édition et la génération de SVG
SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation
June 3, 2025
Auteurs: Siqi Chen, Xinyu Dong, Haolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) et les LLMs multimodaux ont démontré des capacités prometteuses pour le traitement des SVG, mais les benchmarks existants souffrent d'une couverture limitée du monde réel, d'un manque de stratification de la complexité et de paradigmes d'évaluation fragmentés. Nous présentons SVGenius, un benchmark complet comprenant 2 377 requêtes réparties sur trois dimensions progressives : compréhension, édition et génération. Construit à partir de données réelles provenant de 24 domaines d'application avec une stratification systématique de la complexité, SVGenius évalue les modèles à travers 8 catégories de tâches et 18 métriques. Nous évaluons 22 modèles grand public couvrant différentes échelles, architectures, paradigmes d'entraînement et niveaux d'accessibilité. Notre analyse révèle que si les modèles propriétaires surpassent significativement leurs homologues open-source, tous les modèles présentent une dégradation systématique des performances avec l'augmentation de la complexité, indiquant des limitations fondamentales dans les approches actuelles ; cependant, un entraînement renforcé par le raisonnement s'avère plus efficace que le simple scaling pour surmonter ces limitations, bien que le transfert de style reste la capacité la plus difficile à maîtriser pour tous les types de modèles. SVGenius établit le premier cadre d'évaluation systématique pour le traitement des SVG, fournissant des insights cruciaux pour développer des modèles de graphiques vectoriels plus performants et faire progresser les applications de conception graphique automatisée. L'annexe et les matériaux supplémentaires (y compris toutes les données et le code) sont disponibles à l'adresse https://zju-real.github.io/SVGenius.
English
Large Language Models (LLMs) and Multimodal LLMs have shown promising
capabilities for SVG processing, yet existing benchmarks suffer from limited
real-world coverage, lack of complexity stratification, and fragmented
evaluation paradigms. We introduce SVGenius, a comprehensive benchmark
comprising 2,377 queries across three progressive dimensions: understanding,
editing, and generation. Built on real-world data from 24 application domains
with systematic complexity stratification, SVGenius evaluates models through 8
task categories and 18 metrics. We assess 22 mainstream models spanning
different scales, architectures, training paradigms, and accessibility levels.
Our analysis reveals that while proprietary models significantly outperform
open-source counterparts, all models exhibit systematic performance degradation
with increasing complexity, indicating fundamental limitations in current
approaches; however, reasoning-enhanced training proves more effective than
pure scaling for overcoming these limitations, though style transfer remains
the most challenging capability across all model types. SVGenius establishes
the first systematic evaluation framework for SVG processing, providing crucial
insights for developing more capable vector graphics models and advancing
automated graphic design applications. Appendix and supplementary materials
(including all data and code) are available at
https://zju-real.github.io/SVGenius.