Prisma Vetorial: Animando Gráficos Vetoriais por Estratificação da Estrutura Semântica

Resumo

Os Gráficos Vetoriais Escaláveis (SVG) são centrais para o design web moderno, e a demanda para animá-los continua a crescer à medida que os ambientes web se tornam cada vez mais dinâmicos. No entanto, automatizar a animação de gráficos vetoriais permanece um desafio para os modelos de visão e linguagem (VLMs), apesar dos progressos recentes na geração de código e no planejamento de movimento. Os VLMs frequentemente manipulam mal os SVGs, uma vez que partes visualmente coerentes são frequentemente fragmentadas em formas de baixo nível que oferecem pouca orientação sobre quais elementos devem se mover em conjunto. Neste artigo, introduzimos uma estrutura que recupera a estrutura semântica necessária para uma animação SVG confiável e revela a camada ausente que os sistemas atuais de VLM ignoram. Isso é alcançado através de uma agregação estatística de múltiplas previsões fracas de partes, permitindo que o sistema infira semanticamente de forma estável a partir de previsões ruidosas. Ao reorganizar os SVGs em grupos semânticos, nossa abordagem permite que os VLMs produzam animações com muito maior coerência. Nossos experimentos demonstram ganhos substanciais em relação às abordagens existentes, sugerindo que a recuperação semântica é o passo chave que desbloqueia a animação SVG robusta e suporta interações mais interpretáveis entre os VLMs e os gráficos vetoriais.

English

Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.