Anim-Director: Un modelo multimodal grande impulsado por agentes para la generación de videos de animación controlables
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
August 19, 2024
Autores: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
cs.AI
Resumen
Los métodos tradicionales de generación de animaciones dependen de entrenar modelos generativos con datos etiquetados por humanos, lo que implica un sofisticado proceso de múltiples etapas que requiere un esfuerzo humano sustancial y conlleva altos costos de entrenamiento. Debido a planes de instrucción limitados, estos métodos suelen producir animaciones breves, pobres en información e incoherentes en contexto. Para superar estas limitaciones y automatizar el proceso de animación, nosotros inauguramos la introducción de grandes modelos multimodales (LMMs) como el procesador central para construir un agente autónomo de creación de animaciones, denominado Anim-Director. Este agente aprovecha principalmente las avanzadas capacidades de comprensión y razonamiento de los LMMs y herramientas de IA generativa para crear videos animados a partir de narrativas concisas o instrucciones simples. Específicamente, opera en tres etapas principales: En primer lugar, el Anim-Director genera una trama coherente a partir de las entradas del usuario, seguido por un detallado guion del director que abarca la configuración de perfiles de personajes y descripciones de interiores/exteriores, y descripciones de escenas coherentes con el contexto que incluyen personajes que aparecen, interiores o exteriores, y eventos de la escena. En segundo lugar, empleamos LMMs con la herramienta de generación de imágenes para producir imágenes visuales de configuraciones y escenas. Estas imágenes están diseñadas para mantener consistencia visual entre diferentes escenas utilizando un método de instrucción visual-lingüística que combina descripciones de escenas e imágenes del personaje y entorno que aparecen. En tercer lugar, las imágenes de escenas sirven como base para producir videos animados, con los LMMs generando instrucciones para guiar este proceso. Todo el proceso es notablemente autónomo sin intervención manual, ya que los LMMs interactúan perfectamente con herramientas generativas para generar instrucciones, evaluar la calidad visual y seleccionar la mejor para optimizar la salida final.
English
Traditional animation generation methods depend on training generative models
with human-labelled data, entailing a sophisticated multi-stage pipeline that
demands substantial human effort and incurs high training costs. Due to limited
prompting plans, these methods typically produce brief, information-poor, and
context-incoherent animations. To overcome these limitations and automate the
animation process, we pioneer the introduction of large multimodal models
(LMMs) as the core processor to build an autonomous animation-making agent,
named Anim-Director. This agent mainly harnesses the advanced understanding and
reasoning capabilities of LMMs and generative AI tools to create animated
videos from concise narratives or simple instructions. Specifically, it
operates in three main stages: Firstly, the Anim-Director generates a coherent
storyline from user inputs, followed by a detailed director's script that
encompasses settings of character profiles and interior/exterior descriptions,
and context-coherent scene descriptions that include appearing characters,
interiors or exteriors, and scene events. Secondly, we employ LMMs with the
image generation tool to produce visual images of settings and scenes. These
images are designed to maintain visual consistency across different scenes
using a visual-language prompting method that combines scene descriptions and
images of the appearing character and setting. Thirdly, scene images serve as
the foundation for producing animated videos, with LMMs generating prompts to
guide this process. The whole process is notably autonomous without manual
intervention, as the LMMs interact seamlessly with generative tools to generate
prompts, evaluate visual quality, and select the best one to optimize the final
output.Summary
AI-Generated Summary