Anim-Director: Ein großes multimodales Modell-basiertes System für kontrollierbare Generierung von Animationsvideos.
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
August 19, 2024
Autoren: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI
Zusammenfassung
Traditionelle Methoden zur Erzeugung von Animationen hängen von der Schulung generativer Modelle mit menschlich gelabelten Daten ab, was eine anspruchsvolle mehrstufige Pipeline erfordert, die erheblichen menschlichen Aufwand erfordert und hohe Schulungskosten verursacht. Aufgrund begrenzter Anweisungspläne produzieren diese Methoden typischerweise kurze, informationsarme und kontextinkohärente Animationen. Um diese Einschränkungen zu überwinden und den Animationsprozess zu automatisieren, führen wir die Einführung großer multimodaler Modelle (LMMs) als Kernprozessor ein, um einen autonomen Animations-Agenten namens Anim-Director zu erstellen. Dieser Agent nutzt hauptsächlich das fortschrittliche Verständnis und die Schlussfolgerungsfähigkeiten von LMMs und generativen KI-Tools, um animierte Videos aus prägnanten Erzählungen oder einfachen Anweisungen zu erstellen. Konkret arbeitet er in drei Hauptphasen: Zunächst generiert der Anim-Director eine kohärente Handlung aus Benutzereingaben, gefolgt von einem detaillierten Regie-Skript, das Einstellungen von Charakterprofilen und Innen-/Außenbeschreibungen sowie kontextkohärente Szenenbeschreibungen umfasst, die erscheinende Charaktere, Innenräume oder Außenbereiche und Szenenereignisse beinhalten. Zweitens verwenden wir LMMs mit dem Bildgenerierungstool, um visuelle Bilder von Einstellungen und Szenen zu erstellen. Diese Bilder sind darauf ausgelegt, visuelle Konsistenz über verschiedene Szenen hinweg zu bewahren, indem eine visuell-sprachliche Anweisungsmethode verwendet wird, die Szenenbeschreibungen und Bilder des erscheinenden Charakters und der Umgebung kombiniert. Drittens dienen Szenenbilder als Grundlage für die Erstellung von animierten Videos, wobei LMMs Anweisungen zur Steuerung dieses Prozesses generieren. Der gesamte Prozess ist bemerkenswert autonom ohne manuelle Intervention, da die LMMs nahtlos mit generativen Tools interagieren, um Anweisungen zu generieren, die visuelle Qualität zu bewerten und die beste zur Optimierung des endgültigen Ergebnisses auszuwählen.
English
Traditional animation generation methods depend on training generative models
with human-labelled data, entailing a sophisticated multi-stage pipeline that
demands substantial human effort and incurs high training costs. Due to limited
prompting plans, these methods typically produce brief, information-poor, and
context-incoherent animations. To overcome these limitations and automate the
animation process, we pioneer the introduction of large multimodal models
(LMMs) as the core processor to build an autonomous animation-making agent,
named Anim-Director. This agent mainly harnesses the advanced understanding and
reasoning capabilities of LMMs and generative AI tools to create animated
videos from concise narratives or simple instructions. Specifically, it
operates in three main stages: Firstly, the Anim-Director generates a coherent
storyline from user inputs, followed by a detailed director's script that
encompasses settings of character profiles and interior/exterior descriptions,
and context-coherent scene descriptions that include appearing characters,
interiors or exteriors, and scene events. Secondly, we employ LMMs with the
image generation tool to produce visual images of settings and scenes. These
images are designed to maintain visual consistency across different scenes
using a visual-language prompting method that combines scene descriptions and
images of the appearing character and setting. Thirdly, scene images serve as
the foundation for producing animated videos, with LMMs generating prompts to
guide this process. The whole process is notably autonomous without manual
intervention, as the LMMs interact seamlessly with generative tools to generate
prompts, evaluate visual quality, and select the best one to optimize the final
output.Summary
AI-Generated Summary