ChatPaper.aiChatPaper

AtomoVideo: Generazione Video ad Alta Fedeltà da Immagini

AtomoVideo: High Fidelity Image-to-Video Generation

March 4, 2024
Autori: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
cs.AI

Abstract

Recentemente, la generazione di video ha raggiunto uno sviluppo rapido e significativo basandosi su tecniche avanzate di generazione da testo a immagine. In questo lavoro, proponiamo un framework ad alta fedeltà per la generazione da immagine a video, denominato AtomoVideo. Basandoci sull'iniezione di immagini a multi-granularità, otteniamo una maggiore fedeltà del video generato rispetto all'immagine fornita. Inoltre, grazie a dataset di alta qualità e strategie di addestramento, raggiungiamo una maggiore intensità del movimento mantenendo una superiore coerenza e stabilità temporale. La nostra architettura si estende in modo flessibile al compito di previsione dei frame video, consentendo la previsione di sequenze lunghe attraverso la generazione iterativa. Inoltre, grazie al design dell'addestramento degli adattatori, il nostro approccio può essere ben combinato con modelli personalizzati esistenti e moduli controllabili. Attraverso valutazioni quantitative e qualitative, AtomoVideo ottiene risultati superiori rispetto ai metodi più diffusi. Ulteriori esempi possono essere trovati sul nostro sito web del progetto: https://atomo-video.github.io/.
English
Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation, named AtomoVideo. Based on multi-granularity image injection, we achieve higher fidelity of the generated video to the given image. In addition, thanks to high quality datasets and training strategies, we achieve greater motion intensity while maintaining superior temporal consistency and stability. Our architecture extends flexibly to the video frame prediction task, enabling long sequence prediction through iterative generation. Furthermore, due to the design of adapter training, our approach can be well combined with existing personalised models and controllable modules. By quantitatively and qualitatively evaluation, AtomoVideo achieves superior results compared to popular methods, more examples can be found on our project website: https://atomo- video.github.io/.
PDF235December 15, 2024