OmniLottie : Génération d'animations vectorielles via des jetons Lottie paramétrés

Résumé

OmniLottie est un cadre polyvalent qui génère des animations vectorielles de haute qualité à partir d'instructions multimodales. Pour un contrôle flexible du mouvement et du contenu visuel, nous nous concentrons sur Lottie, un format JSON léger permettant de représenter à la fois les formes et les comportements d'animation. Cependant, les fichiers JSON Lottie bruts contiennent de nombreuses métadonnées structurelles invariantes et des jetons de formatage, ce qui pose des défis significatifs pour l'apprentissage de la génération d'animations vectorielles. Par conséquent, nous introduisons un tokeniseur Lottie bien conçu qui transforme les fichiers JSON en séquences structurées de commandes et de paramètres représentant les formes, les fonctions d'animation et les paramètres de contrôle. Ce tokeniseur nous permet de construire OmniLottie sur la base de modèles de vision et de langage pré-entraînés pour suivre des instructions entrelacées multimodales et générer des animations vectorielles de haute qualité. Pour faire progresser la recherche en génération d'animations vectorielles, nous constituons MMLottie-2M, un jeu de données à grande échelle d'animations vectorielles conçues professionnellement, accompagnées d'annotations textuelles et visuelles. Grâce à des expériences approfondies, nous validons qu'OmniLottie peut produire des animations vectorielles vives et sémantiquement alignées qui adhèrent étroitement aux instructions humaines multimodales.

English

OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.

OmniLottie : Génération d'animations vectorielles via des jetons Lottie paramétrés

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Résumé

Support