Vektorprisma: Animation von Vektorgrafiken durch Schichtung semantischer Strukturen
Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure
December 16, 2025
papers.authors: Jooyeol Yun, Jaegul Choo
cs.AI
papers.abstract
Skalierbare Vektorgrafiken (SVG) sind zentral für modernes Webdesign, und die Nachfrage nach deren Animation wächst stetig, da Webumgebungen zunehmend dynamischer werden. Dennoch stellt die Automatisierung der Animation von Vektorgrafiken eine anhaltende Herausforderung für Vision-Language-Modelle (VLMs) dar, trotz jüngster Fortschritte in der Codegenerierung und Bewegungsplanung. VLMs verarbeiten SVGs häufig fehlerhaft, da visuell kohärente Elemente oft in niedrigere Formen fragmentiert sind, die wenig Anhaltspunkte dafür bieten, welche Elemente sich gemeinsam bewegen sollten. In diesem Artikel stellen wir ein Framework vor, das die für zuverlässige SVG-Animation erforderliche semantische Struktur wiederherstellt und die fehlende Ebene aufdeckt, die aktuelle VLM-Systeme übersehen. Dies wird durch eine statistische Aggregation mehrerer schwacher Teilevorhersagen erreicht, die es dem System ermöglicht, Semantik stabil aus verrauschten Vorhersagen abzuleiten. Durch die Reorganisation von SVGs in semantische Gruppen ermöglicht unser Ansatz VLMs, Animationen mit deutlich größerer Kohärenz zu erzeugen. Unsere Experimente zeigen substantiale Verbesserungen gegenüber bestehenden Ansätzen und legen nahe, dass semantische Wiederherstellung der Schlüsselschritt ist, der robuste SVG-Animation ermöglicht und interpretierbare Interaktionen zwischen VLMs und Vektorgrafiken unterstützt.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.