OmniLottie: Geração de Animações Vetoriais via Tokens Lottie Parametrizados

Resumo

O OmniLottie é uma estrutura versátil que gera animações vetoriais de alta qualidade a partir de instruções multimodais. Para um controle flexível do movimento e do conteúdo visual, focamos no Lottie, um formato JSON leve para representação tanto de formas quanto de comportamentos de animação. No entanto, os ficheiros JSON Lottie brutos contêm metadados estruturais invariantes extensos e tokens de formatação, representando desafios significativos para a aprendizagem da geração de animações vetoriais. Portanto, introduzimos um tokenizador Lottie bem concebido que transforma os ficheiros JSON em sequências estruturadas de comandos e parâmetros que representam formas, funções de animação e parâmetros de controlo. Este tokenizador permite-nos construir o OmniLottie com base em modelos de linguagem visual pré-treinados para seguir instruções intercaladas multimodais e gerar animações vetoriais de alta qualidade. Para avançar ainda mais a investigação em geração de animação vetorial, criámos o MMLottie-2M, um conjunto de dados em larga escala de animações vetoriais concebidas profissionalmente e emparelhadas com anotações textuais e visuais. Através de experiências extensivas, validamos que o OmniLottie pode produzir animações vetoriais vívidas e semanticamente alinhadas que aderem de perto às instruções humanas multimodais.

English

OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.