Anim-Director: Un Agente Basato su un Grande Modello Multimodale per la Generazione Controllabile di Video Animati
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
August 19, 2024
Autori: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI
Abstract
I metodi tradizionali per la generazione di animazioni si basano sull'addestramento di modelli generativi con dati etichettati manualmente, implicando una pipeline multi-stadio sofisticata che richiede un notevole sforzo umano e comporta costi di addestramento elevati. A causa di piani di prompt limitati, questi metodi producono tipicamente animazioni brevi, povere di informazioni e incoerenti dal punto di vista contestuale. Per superare queste limitazioni e automatizzare il processo di animazione, siamo pionieri nell'introduzione di grandi modelli multimodali (LMMs) come processore centrale per costruire un agente autonomo di creazione di animazioni, denominato Anim-Director. Questo agente sfrutta principalmente le avanzate capacità di comprensione e ragionamento degli LMMs e degli strumenti di intelligenza artificiale generativa per creare video animati a partire da narrazioni concise o istruzioni semplici. Nello specifico, opera in tre fasi principali: In primo luogo, l'Anim-Director genera una trama coerente dagli input dell'utente, seguita da uno script dettagliato del regista che include la configurazione dei profili dei personaggi e descrizioni interne/esterne, nonché descrizioni di scene coerenti con il contesto che includono personaggi presenti, interni o esterni ed eventi della scena. In secondo luogo, utilizziamo LMMs con uno strumento di generazione di immagini per produrre immagini visive di ambientazioni e scene. Queste immagini sono progettate per mantenere la coerenza visiva tra diverse scene utilizzando un metodo di prompting visivo-linguistico che combina descrizioni delle scene e immagini del personaggio e dell'ambientazione presenti. In terzo luogo, le immagini delle scene servono come base per la produzione di video animati, con gli LMMs che generano prompt per guidare questo processo. L'intero processo è notevolmente autonomo senza intervento manuale, poiché gli LMMs interagiscono in modo fluido con gli strumenti generativi per generare prompt, valutare la qualità visiva e selezionare la migliore per ottimizzare l'output finale.
English
Traditional animation generation methods depend on training generative models
with human-labelled data, entailing a sophisticated multi-stage pipeline that
demands substantial human effort and incurs high training costs. Due to limited
prompting plans, these methods typically produce brief, information-poor, and
context-incoherent animations. To overcome these limitations and automate the
animation process, we pioneer the introduction of large multimodal models
(LMMs) as the core processor to build an autonomous animation-making agent,
named Anim-Director. This agent mainly harnesses the advanced understanding and
reasoning capabilities of LMMs and generative AI tools to create animated
videos from concise narratives or simple instructions. Specifically, it
operates in three main stages: Firstly, the Anim-Director generates a coherent
storyline from user inputs, followed by a detailed director's script that
encompasses settings of character profiles and interior/exterior descriptions,
and context-coherent scene descriptions that include appearing characters,
interiors or exteriors, and scene events. Secondly, we employ LMMs with the
image generation tool to produce visual images of settings and scenes. These
images are designed to maintain visual consistency across different scenes
using a visual-language prompting method that combines scene descriptions and
images of the appearing character and setting. Thirdly, scene images serve as
the foundation for producing animated videos, with LMMs generating prompts to
guide this process. The whole process is notably autonomous without manual
intervention, as the LMMs interact seamlessly with generative tools to generate
prompts, evaluate visual quality, and select the best one to optimize the final
output.