ChatPaper.aiChatPaper

AtomoVideo : Génération vidéo haute fidélité à partir d'images

AtomoVideo: High Fidelity Image-to-Video Generation

March 4, 2024
Auteurs: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
cs.AI

Résumé

Récemment, la génération vidéo a connu un développement rapide et significatif grâce aux techniques supérieures de génération d'images à partir de texte. Dans ce travail, nous proposons un cadre de haute fidélité pour la génération vidéo à partir d'images, nommé AtomoVideo. En nous appuyant sur l'injection d'images à granularité multiple, nous obtenons une plus grande fidélité de la vidéo générée par rapport à l'image donnée. De plus, grâce à des ensembles de données de haute qualité et à des stratégies d'entraînement efficaces, nous atteignons une intensité de mouvement accrue tout en maintenant une cohérence et une stabilité temporelles supérieures. Notre architecture s'étend de manière flexible à la tâche de prédiction de trames vidéo, permettant la prédiction de séquences longues via une génération itérative. Par ailleurs, grâce à la conception de l'entraînement par adaptateurs, notre approche peut être facilement combinée avec des modèles personnalisés et des modules de contrôle existants. Par des évaluations quantitatives et qualitatives, AtomoVideo obtient des résultats supérieurs par rapport aux méthodes populaires. Plus d'exemples sont disponibles sur notre site web de projet : https://atomo-video.github.io/.
English
Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation, named AtomoVideo. Based on multi-granularity image injection, we achieve higher fidelity of the generated video to the given image. In addition, thanks to high quality datasets and training strategies, we achieve greater motion intensity while maintaining superior temporal consistency and stability. Our architecture extends flexibly to the video frame prediction task, enabling long sequence prediction through iterative generation. Furthermore, due to the design of adapter training, our approach can be well combined with existing personalised models and controllable modules. By quantitatively and qualitatively evaluation, AtomoVideo achieves superior results compared to popular methods, more examples can be found on our project website: https://atomo- video.github.io/.
PDF245December 15, 2024