ChatPaper.aiChatPaper

Prisma Vettoriale: Animazione della Grafica Vettoriale mediante Stratificazione della Struttura Semantica

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

December 16, 2025
Autori: Jooyeol Yun, Jaegul Choo
cs.AI

Abstract

I grafici vettoriali scalabili (SVG) sono centrali nel web design moderno, e la richiesta di animarli continua a crescere man mano che gli ambienti web diventano sempre più dinamici. Tuttavia, automatizzare l'animazione della grafica vettoriale rimane una sfida per i modelli visione-linguaggio (VLM), nonostante i recenti progressi nella generazione di codice e nella pianificazione del movimento. I VLM gestiscono spesso male gli SVG, poiché parti visivamente coerenti sono spesso frammentate in forme di basso livello che offrono poca indicazione su quali elementi dovrebbero muoversi insieme. In questo articolo, introduciamo un framework che recupera la struttura semantica necessaria per un'animazione SVG affidabile e rivela lo strato mancante che i sistemi VLM attuali trascurano. Ciò è ottenuto tramite un'aggregazione statistica di multiple previsioni deboli delle parti, permettendo al sistema di inferire in modo stabile la semantica da previsioni rumorose. Riorganizzando gli SVG in gruppi semantici, il nostro approccio consente ai VLM di produrre animazioni con una coerenza di gran lunga maggiore. I nostri esperimenti dimostrano miglioramenti sostanziali rispetto agli approcci esistenti, suggerendo che il recupero semantico è il passo chiave che sblocca un'animazione SVG robusta e supporta interazioni più interpretabili tra i VLM e la grafica vettoriale.
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.
PDF262December 18, 2025