ChatPaper.aiChatPaper

Anim-Director: Um Agente de Modelo Multimodal de Grande Porte para Geração de Vídeo de Animação Controlável

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

August 19, 2024
Autores: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI

Resumo

Os métodos tradicionais de geração de animações dependem do treinamento de modelos generativos com dados rotulados por humanos, envolvendo um sofisticado pipeline de múltiplas etapas que demanda um esforço humano substancial e incorre em altos custos de treinamento. Devido aos planos de estímulo limitados, esses métodos geralmente produzem animações breves, pobres em informações e incoerentes em contexto. Para superar essas limitações e automatizar o processo de animação, pioneiramos a introdução de grandes modelos multimodais (LMMs) como o processador central para construir um agente autônomo de criação de animações, denominado Anim-Director. Este agente principalmente aproveita as capacidades avançadas de compreensão e raciocínio dos LMMs e ferramentas de IA generativa para criar vídeos animados a partir de narrativas concisas ou instruções simples. Especificamente, opera em três etapas principais: Primeiramente, o Anim-Director gera uma linha de história coerente a partir das entradas do usuário, seguida por um roteiro detalhado do diretor que abrange configurações de perfis de personagens e descrições de interiores/exteriores, e descrições de cena coerentes com o contexto que incluem personagens que aparecem, interiores ou exteriores e eventos de cena. Em segundo lugar, empregamos LMMs com a ferramenta de geração de imagens para produzir imagens visuais de configurações e cenas. Essas imagens são projetadas para manter consistência visual entre diferentes cenas usando um método de estímulo visual-linguístico que combina descrições de cena e imagens do personagem e configuração que aparecem. Em terceiro lugar, as imagens de cena servem de base para a produção de vídeos animados, com os LMMs gerando estímulos para orientar esse processo. Todo o processo é notavelmente autônomo, sem intervenção manual, já que os LMMs interagem perfeitamente com ferramentas generativas para gerar estímulos, avaliar a qualidade visual e selecionar a melhor opção para otimizar a saída final.
English
Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.

Summary

AI-Generated Summary

PDF82November 16, 2024