ChatPaper.aiChatPaper

Anim-Director : un agent alimenté par un grand modèle multimodal pour la génération contrôlable de vidéos d'animation

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

August 19, 2024
Auteurs: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI

Résumé

Les méthodes traditionnelles de génération d'animation dépendent de l'entraînement de modèles génératifs avec des données étiquetées par des humains, impliquant un pipeline sophistiqué à plusieurs étapes qui demande un effort humain substantiel et entraîne des coûts de formation élevés. En raison de plans de guidage limités, ces méthodes produisent généralement des animations brèves, pauvres en informations et incohérentes sur le plan contextuel. Pour surmonter ces limitations et automatiser le processus d'animation, nous introduisons en pionnier l'utilisation de grands modèles multimodaux (LMM) en tant que processeur central pour construire un agent autonome de création d'animation, nommé Anim-Director. Cet agent exploite principalement les capacités avancées de compréhension et de raisonnement des LMM et des outils d'IA générative pour créer des vidéos animées à partir de récits concis ou d'instructions simples. Plus précisément, il fonctionne en trois étapes principales : Tout d'abord, l'Anim-Director génère une intrigue cohérente à partir des entrées de l'utilisateur, suivie d'un script détaillé du réalisateur qui englobe les paramètres des profils de personnages et les descriptions intérieures/extérieures, ainsi que des descriptions de scènes cohérentes sur le plan contextuel qui incluent les personnages apparaissant, les intérieurs ou extérieurs, et les événements de scène. Ensuite, nous utilisons les LMM avec l'outil de génération d'images pour produire des images visuelles des paramètres et des scènes. Ces images sont conçues pour maintenir une cohérence visuelle à travers différentes scènes en utilisant une méthode de guidage visuel-langage qui combine les descriptions de scènes et les images des personnages et paramètres apparaissant. Enfin, les images de scène servent de base pour produire des vidéos animées, les LMM générant des instructions pour guider ce processus. L'ensemble du processus est remarquablement autonome sans intervention manuelle, car les LMM interagissent de manière transparente avec les outils génératifs pour produire des instructions, évaluer la qualité visuelle et sélectionner la meilleure pour optimiser la sortie finale.
English
Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.

Summary

AI-Generated Summary

PDF82November 16, 2024