Векторная призма: анимация векторной графики посредством стратификации семантической структуры
Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure
December 16, 2025
Авторы: Jooyeol Yun, Jaegul Choo
cs.AI
Аннотация
Масштабируемая векторная графика (SVG) занимает центральное место в современном веб-дизайне, а потребность в её анимации продолжает расти по мере того, как веб-среда становится всё более динамичной. Однако автоматизация анимации векторной графики остаётся сложной задачей для визуально-языковых моделей (VLM), несмотря на недавний прогресс в генерации кода и планировании движений. VLM часто некорректно обрабатывают SVG, поскольку визуально целостные части часто фрагментированы на низкоуровневые фигуры, которые не дают представления о том, какие элементы должны двигаться вместе. В данной статье мы представляем фреймворк, который восстанавливает семантическую структуру, необходимую для надёжной анимации SVG, и выявляет недостающий слой, который упускают из виду современные системы VLM. Это достигается за счёт статистической агрегации множества слабых предсказаний частей, что позволяет системе устойчиво выводить семантику из зашумлённых предсказаний. Путем реорганизации SVG в семантические группы наш подход позволяет VLM создавать анимации с гораздо большей согласованностью. Наши эксперименты демонстрируют существенное преимущество по сравнению с существующими подходами, что позволяет предположить, что восстановление семантики является ключевым шагом, который открывает возможность robust-анимации SVG и поддерживает более интерпретируемое взаимодействие между VLM и векторной графикой.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.