OmniLottie: Генерация векторных анимаций через параметризованные Lottie-токены

Аннотация

OmniLottie — это универсальный фреймворк, который генерирует высококачественные векторные анимации по мультимодальным инструкциям. Для гибкого управления движением и визуальным содержимым мы ориентируемся на Lottie — легковесный JSON-формат для представления как форм, так и анимационных поведений. Однако исходные JSON-файлы Lottie содержат обширные инвариантные структурные метаданные и токены форматирования, что создает значительные трудности для обучения генерации векторной анимации. Поэтому мы представляем тщательно разработанный токенизатор Lottie, который преобразует JSON-файлы в структурированные последовательности команд и параметров, представляющих формы, анимационные функции и управляющие параметры. Такой токенизатор позволяет нам построить OmniLottie на базе предобученных моделей «визуальный язык» для следования мультимодальным перемежающимся инструкциям и генерации высококачественных векторных анимаций. Для дальнейшего прогресса в исследованиях по генерации векторной анимации мы создали MMLottie-2M — масштабный набор данных профессионально разработанных векторных анимаций, снабженных текстовыми и визуальными аннотациями. В ходе обширных экспериментов мы подтверждаем, что OmniLottie способен создавать яркие и семантически согласованные векторные анимации, точно следующие мультимодальным человеческим инструкциям.

English

OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.

OmniLottie: Генерация векторных анимаций через параметризованные Lottie-токены

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Аннотация

Support