OmniLottie: Generazione di Animazioni Vettoriali tramite Token Lottie Parametrizzati

Abstract

OmniLottie è un framework versatile che genera animazioni vettoriali di alta qualità a partire da istruzioni multimodali. Per un controllo flessibile del movimento e del contenuto visivo, ci concentriamo su Lottie, un formato JSON leggero per la rappresentazione sia delle forme che dei comportamenti animati. Tuttavia, i file JSON Lottie grezzi contengono estesi metadati strutturali invarianti e token di formattazione, rappresentando una sfida significativa per l'apprendimento della generazione di animazioni vettoriali. Pertanto, introduciamo un Lottie tokenizer ben progettato che trasforma i file JSON in sequenze strutturate di comandi e parametri rappresentanti forme, funzioni di animazione e parametri di controllo. Tale tokenizer ci consente di costruire OmniLottie su modelli linguistici visivi preaddestrati per seguire istruzioni intervallate multimodali e generare animazioni vettoriali di alta qualità. Per far progredire ulteriormente la ricerca nella generazione di animazioni vettoriali, abbiamo curato MMLottie-2M, un dataset su larga scala di animazioni vettoriali progettate professionalmente, accoppiate con annotazioni testuali e visive. Attraverso esperimenti estensivi, validiamo che OmniLottie possa produrre animazioni vettoriali vivide e semanticamente allineate che aderiscono strettamente alle istruzioni umane multimodali.

English

OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.

OmniLottie: Generazione di Animazioni Vettoriali tramite Token Lottie Parametrizzati

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Abstract

Support