SVGenius: Evaluatie van LLM's in SVG-begrip, -bewerking en -generatie

Samenvatting

Grote Taalmodellen (LLMs) en Multimodale LLMs hebben veelbelovende mogelijkheden getoond voor SVG-verwerking, maar bestaande benchmarks lijden onder beperkte dekking van de echte wereld, een gebrek aan complexiteitsstratificatie en gefragmenteerde evaluatieparadigma's. Wij introduceren SVGenius, een uitgebreide benchmark bestaande uit 2.377 queries over drie progressieve dimensies: begrip, bewerking en generatie. Gebouwd op real-world data uit 24 toepassingsdomeinen met systematische complexiteitsstratificatie, evalueert SVGenius modellen via 8 taalcategorieën en 18 metrieken. We beoordelen 22 mainstream modellen die verschillende schalen, architecturen, trainingsparadigma's en toegankelijkheidsniveaus omvatten. Onze analyse toont aan dat, hoewel propriëtaire modellen aanzienlijk beter presteren dan open-source tegenhangers, alle modellen systematische prestatievermindering vertonen bij toenemende complexiteit, wat fundamentele beperkingen in huidige benaderingen aangeeft; echter, redenering-versterkte training blijkt effectiever te zijn dan pure schaalvergroting om deze beperkingen te overwinnen, hoewel stijloverdracht de meest uitdagende capaciteit blijft voor alle modeltypen. SVGenius stelt het eerste systematische evaluatieraamwerk voor SVG-verwerking vast, en biedt cruciale inzichten voor het ontwikkelen van krachtigere vectorafbeeldingmodellen en het bevorderen van geautomatiseerde grafische ontwerptoepassingen. Bijlage en aanvullende materialen (inclusief alle data en code) zijn beschikbaar op https://zju-real.github.io/SVGenius.

English

Large Language Models (LLMs) and Multimodal LLMs have shown promising capabilities for SVG processing, yet existing benchmarks suffer from limited real-world coverage, lack of complexity stratification, and fragmented evaluation paradigms. We introduce SVGenius, a comprehensive benchmark comprising 2,377 queries across three progressive dimensions: understanding, editing, and generation. Built on real-world data from 24 application domains with systematic complexity stratification, SVGenius evaluates models through 8 task categories and 18 metrics. We assess 22 mainstream models spanning different scales, architectures, training paradigms, and accessibility levels. Our analysis reveals that while proprietary models significantly outperform open-source counterparts, all models exhibit systematic performance degradation with increasing complexity, indicating fundamental limitations in current approaches; however, reasoning-enhanced training proves more effective than pure scaling for overcoming these limitations, though style transfer remains the most challenging capability across all model types. SVGenius establishes the first systematic evaluation framework for SVG processing, providing crucial insights for developing more capable vector graphics models and advancing automated graphic design applications. Appendix and supplementary materials (including all data and code) are available at https://zju-real.github.io/SVGenius.

SVGenius: Evaluatie van LLM's in SVG-begrip, -bewerking en -generatie

SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Samenvatting

Support