ChatPaper.aiChatPaper

ベクトルプリズム:意味構造の階層化によるベクトルグラフィックスのアニメーション化

Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

December 16, 2025
著者: Jooyeol Yun, Jaegul Choo
cs.AI

要旨

スケーラブルベクターグラフィックス(SVG)は現代のウェブデザインにおいて中心的な役割を果たしており、ウェブ環境がますます動的になるにつれて、そのアニメーション化の需要も高まり続けている。しかし、コード生成とモーションプランニングにおける最近の進歩にもかかわらず、ベクターグラフィックスのアニメーション化をビジョン言語モデル(VLM)で自動化することは依然として困難な課題である。VLMはSVGを誤って扱うことが多い。なぜなら、視覚的に一貫した部分が、しばしばどの要素が一緒に動くべきかの指針をほとんど提供しない低レベルな形状に断片化されているためである。本論文では、信頼性の高いSVGアニメーションに必要な意味的構造を復元し、現在のVLMシステムが見落としている欠落した層を明らかにするフレームワークを提案する。これは、複数の弱い部分予測を統計的に集約することで達成され、ノイズの多い予測から意味を安定して推論することを可能にする。SVGを意味的グループに再編成することにより、我々のアプローチはVLMがはるかに一貫性のあるアニメーションを生成できるようにする。実験結果は、既存のアプローチを大幅に上回る改善を示しており、意味的復元がロバストなSVGアニメーションを実現し、VLMとベクターグラフィックス間のより解釈可能な相互作用を支援する鍵となるステップであることを示唆している。
English
Scalable Vector Graphics (SVG) are central to modern web design, and the demand to animate them continues to grow as web environments become increasingly dynamic. Yet automating the animation of vector graphics remains challenging for vision-language models (VLMs) despite recent progress in code generation and motion planning. VLMs routinely mis-handle SVGs, since visually coherent parts are often fragmented into low-level shapes that offer little guidance of which elements should move together. In this paper, we introduce a framework that recovers the semantic structure required for reliable SVG animation and reveals the missing layer that current VLM systems overlook. This is achieved through a statistical aggregation of multiple weak part predictions, allowing the system to stably infer semantics from noisy predictions. By reorganizing SVGs into semantic groups, our approach enables VLMs to produce animations with far greater coherence. Our experiments demonstrate substantial gains over existing approaches, suggesting that semantic recovery is the key step that unlocks robust SVG animation and supports more interpretable interactions between VLMs and vector graphics.
PDF262December 18, 2025