ChatPaper.aiChatPaper

Anim-Director: Een grootschalig multimodaal model aangedreven agent voor controleerbare animatievideo-generatie

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

August 19, 2024
Auteurs: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI

Samenvatting

Traditionele methoden voor animatiegeneratie zijn afhankelijk van het trainen van generatieve modellen met door mensen gelabelde gegevens, wat een geavanceerde, meerfasige pijplijn vereist die aanzienlijke menselijke inspanning vergt en hoge trainingskosten met zich meebrengt. Vanwege beperkte promptingschema's produceren deze methoden doorgaans korte, informatiearme en contextueel onsamenhangende animaties. Om deze beperkingen te overwinnen en het animatieproces te automatiseren, introduceren we als eerste grote multimodale modellen (LMMs) als de kernprocessor om een autonome animatiemaker te bouwen, genaamd Anim-Director. Deze agent maakt voornamelijk gebruik van de geavanceerde begrips- en redeneercapaciteiten van LMMs en generatieve AI-tools om geanimeerde video's te creëren vanuit beknopte verhalen of eenvoudige instructies. Specifiek werkt het in drie hoofdstadia: Ten eerste genereert de Anim-Director een samenhangend verhaal vanuit gebruikersinvoer, gevolgd door een gedetailleerd regisseursscript dat instellingen van karakterprofielen en beschrijvingen van interieurs/exterieurs omvat, en contextueel samenhangende scènebeschrijvingen die verschijnende personages, interieurs of exterieurs, en scènegebeurtenissen bevatten. Ten tweede gebruiken we LMMs met het beeldgeneratietool om visuele beelden van instellingen en scènes te produceren. Deze beelden zijn ontworpen om visuele consistentie tussen verschillende scènes te behouden met behulp van een visueel-taalpromptmethode die scènebeschrijvingen en beelden van het verschijnende personage en de instelling combineert. Ten derde dienen scènebeelden als basis voor het produceren van geanimeerde video's, waarbij LMMs prompts genereren om dit proces te begeleiden. Het hele proces is opmerkelijk autonoom zonder handmatige interventie, aangezien de LMMs naadloos interageren met generatieve tools om prompts te genereren, visuele kwaliteit te evalueren en de beste te selecteren om de uiteindelijke output te optimaliseren.
English
Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.

Summary

AI-Generated Summary

PDF82November 16, 2024