OmniLottie: Erzeugung von Vektoranimationen über parametrisierte Lottie-Tokens

Zusammenfassung

OmniLottie ist ein vielseitiges Framework, das hochwertige Vektoranimationen aus multimodalen Anweisungen generiert. Für eine flexible Steuerung von Bewegung und visuellen Inhalten konzentrieren wir uns auf Lottie, ein leichtgewichtiges JSON-Format zur Darstellung sowohl von Formen als auch von Animationsverhalten. Allerdings enthalten die rohen Lottie-JSON-Dateien umfangreiche invariante strukturelle Metadaten und Formatierungstokens, was erhebliche Herausforderungen für das Erlernen der Generierung von Vektoranimationen darstellt. Daher führen wir einen speziell entwickelten Lottie-Tokenizer ein, der JSON-Dateien in strukturierte Sequenzen von Befehlen und Parametern umwandelt, welche Formen, Animationsfunktionen und Steuerparameter repräsentieren. Ein solcher Tokenizer ermöglicht es uns, OmniLottie auf vortrainierten Vision-Language-Modellen aufzubauen, um multimodalen, verschachtelten Anweisungen zu folgen und hochwertige Vektoranimationen zu erzeugen. Um die Forschung zur Generierung von Vektoranimationen weiter voranzutreiben, haben wir MMLottie-2M kuratiert, einen umfangreichen Datensatz mit professionell gestalteten Vektoranimationen, die mit textuellen und visuellen Annotationen versehen sind. Durch umfangreiche Experimente validieren wir, dass OmniLottie lebendige und semantisch abgestimmte Vektoranimationen produzieren kann, die sich eng an multimodalen menschlichen Anweisungen orientieren.

English

OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.

OmniLottie: Erzeugung von Vektoranimationen über parametrisierte Lottie-Tokens

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Zusammenfassung

Support