Prisma Vectorial: Animación de Gráficos Vectoriales mediante la Estratificación de Estructuras Semánticas
Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure
December 16, 2025
Autores: Jooyeol Yun, Jaegul Choo
cs.AI
Resumen
Los Gráficos Vectoriales Escalables (SVG) son fundamentales para el diseño web moderno, y la demanda para animarlos continúa creciendo a medida que los entornos web se vuelven cada vez más dinámicos. Sin embargo, automatizar la animación de gráficos vectoriales sigue siendo un desafío para los modelos de visión y lenguaje (VLM), a pesar de los recientes avances en generación de código y planificación de movimiento. Los VLM manejan rutinariamente los SVG de forma incorrecta, ya que las partes visualmente coherentes a menudo se fragmentan en formas de bajo nivel que ofrecen poca orientación sobre qué elementos deberían moverse juntos. En este artículo, presentamos un marco de trabajo que recupera la estructura semántica necesaria para una animación SVG confiable y revela la capa faltante que los sistemas VLM actuales pasan por alto. Esto se logra mediante una agregación estadística de múltiples predicciones débiles de partes, permitiendo que el sistema infiera semántica de manera estable a partir de predicciones ruidosas. Al reorganizar los SVG en grupos semánticos, nuestro enfoque permite a los VLM producir animaciones con una coherencia muy superior. Nuestros experimentos demuestran mejoras sustanciales respecto a los enfoques existentes, lo que sugiere que la recuperación semántica es el paso clave que desbloquea la animación SVG robusta y favorece interacciones más interpretables entre los VLM y los gráficos vectoriales.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.