ChatPaper.aiChatPaper

Vector Prism: Het Animeren van Vectorafbeeldingen door Stratificatie van Semantische Structuur

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

December 16, 2025
Auteurs: Jooyeol Yun, Jaegul Choo
cs.AI

Samenvatting

Schaalbare Vectorafbeeldingen (SVG) staan centraal in modern webdesign, en de vraag om ze te animeren blijft groeien naarmate webomgevingen dynamischer worden. Het automatiseren van de animatie van vectorafbeeldingen blijft echter een uitdaging voor vision-language modellen (VLM's), ondanks recente vooruitgang in codegeneratie en bewegingsplanning. VLM's verwerken SVG's routinematig verkeerd, omdat visueel samenhangende onderdelen vaak gefragmenteerd zijn in laagniveau vormen die weinig richting geven over welke elementen samen moeten bewegen. In dit artikel introduceren we een raamwerk dat de semantische structuur herstelt die nodig is voor betrouwbare SVG-animatie en de ontbrekende laag onthult die huidige VLM-systemen over het hoofd zien. Dit wordt bereikt door een statistische aggregatie van meerdere zwakke deelvoorspellingen, waardoor het systeem semantiek stabiel kan afleiden uit ruisvoorspellingen. Door SVG's te reorganiseren in semantische groepen, stelt onze aanpak VLM's in staat animaties te produceren met een veel grotere samenhang. Onze experimenten tonen substantiële verbeteringen ten opzichte van bestaande benaderingen, wat suggereert dat semantisch herstel de cruciale stap is die robuuste SVG-animatie mogelijk maakt en meer interpreteerbare interacties tussen VLM's en vectorafbeeldingen ondersteunt.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.
PDF262December 18, 2025