ChatPaper.aiChatPaper

AtomoVideo: Generación de Vídeo de Alta Fidelidad a partir de Imágenes

AtomoVideo: High Fidelity Image-to-Video Generation

March 4, 2024
Autores: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
cs.AI

Resumen

Recientemente, la generación de videos ha logrado un desarrollo significativo y rápido basado en técnicas superiores de generación de texto a imagen. En este trabajo, proponemos un marco de alta fidelidad para la generación de imagen a video, denominado AtomoVideo. Basándonos en la inyección de imágenes de múltiples granularidades, logramos una mayor fidelidad del video generado con respecto a la imagen dada. Además, gracias a conjuntos de datos de alta calidad y estrategias de entrenamiento, alcanzamos una mayor intensidad de movimiento mientras mantenemos una consistencia y estabilidad temporal superiores. Nuestra arquitectura se extiende de manera flexible a la tarea de predicción de fotogramas de video, permitiendo la predicción de secuencias largas mediante generación iterativa. Además, debido al diseño del entrenamiento de adaptadores, nuestro enfoque puede combinarse eficazmente con modelos personalizados y módulos controlables existentes. Mediante evaluaciones cuantitativas y cualitativas, AtomoVideo obtiene resultados superiores en comparación con métodos populares. Se pueden encontrar más ejemplos en nuestro sitio web del proyecto: https://atomo-video.github.io/.
English
Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation, named AtomoVideo. Based on multi-granularity image injection, we achieve higher fidelity of the generated video to the given image. In addition, thanks to high quality datasets and training strategies, we achieve greater motion intensity while maintaining superior temporal consistency and stability. Our architecture extends flexibly to the video frame prediction task, enabling long sequence prediction through iterative generation. Furthermore, due to the design of adapter training, our approach can be well combined with existing personalised models and controllable modules. By quantitatively and qualitatively evaluation, AtomoVideo achieves superior results compared to popular methods, more examples can be found on our project website: https://atomo- video.github.io/.
PDF245December 15, 2024