Prisme Vectoriel : Animation de Graphiques Vectoriels par Stratification de la Structure Sémantique
Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure
December 16, 2025
papers.authors: Jooyeol Yun, Jaegul Choo
cs.AI
papers.abstract
Les graphiques vectoriels évolutifs (SVG) sont au cœur du design web moderne, et la demande pour les animer ne cesse de croître à mesure que les environnements web deviennent plus dynamiques. Pourtant, l'automatisation de l'animation des graphiques vectoriels reste un défi pour les modèles vision-langage (VLM), malgré les progrès récents en génération de code et en planification du mouvement. Les VLM traitent souvent mal les SVG, car des parties visuellement cohérentes sont souvent fragmentées en formes de bas niveau qui offrent peu d'indications sur les éléments qui devraient se déplacer ensemble. Dans cet article, nous présentons un cadre qui restaure la structure sémantique nécessaire à une animation fiable des SVG et révèle la couche manquante que les systèmes VLM actuels négligent. Ceci est réalisé grâce à une agrégation statistique de multiples prédictions faibles de parties, permettant au système d'inférer stablement la sémantique à partir de prédictions bruitées. En réorganisant les SVG en groupes sémantiques, notre approche permet aux VLM de produire des animations ayant une bien plus grande cohérence. Nos expériences démontrent des gains substantiels par rapport aux approches existantes, suggérant que la restauration sémantique est l'étape clé qui permet une animation robuste des SVG et supporte des interactions plus interprétables entre les VLM et les graphiques vectoriels.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.