ChatPaper.aiChatPaper

AtomoVideo: Geração de Vídeo de Alta Fidelidade a partir de Imagens

AtomoVideo: High Fidelity Image-to-Video Generation

March 4, 2024
Autores: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
cs.AI

Resumo

Recentemente, a geração de vídeo alcançou um desenvolvimento significativo e rápido com base em técnicas superiores de geração de texto para imagem. Neste trabalho, propomos uma estrutura de alta fidelidade para geração de vídeo a partir de imagens, denominada AtomoVideo. Com base na injeção de imagens em múltiplas granularidades, alcançamos uma fidelidade maior do vídeo gerado em relação à imagem fornecida. Além disso, graças a conjuntos de dados de alta qualidade e estratégias de treinamento, conseguimos uma maior intensidade de movimento enquanto mantemos uma consistência e estabilidade temporal superiores. Nossa arquitetura se estende de forma flexível para a tarefa de previsão de quadros de vídeo, permitindo a previsão de sequências longas por meio de geração iterativa. Adicionalmente, devido ao design do treinamento de adaptadores, nossa abordagem pode ser bem combinada com modelos personalizados e módulos controláveis existentes. Por meio de avaliações quantitativas e qualitativas, o AtomoVideo alcança resultados superiores em comparação com métodos populares. Mais exemplos podem ser encontrados em nosso site do projeto: https://atomo-video.github.io/.
English
Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation, named AtomoVideo. Based on multi-granularity image injection, we achieve higher fidelity of the generated video to the given image. In addition, thanks to high quality datasets and training strategies, we achieve greater motion intensity while maintaining superior temporal consistency and stability. Our architecture extends flexibly to the video frame prediction task, enabling long sequence prediction through iterative generation. Furthermore, due to the design of adapter training, our approach can be well combined with existing personalised models and controllable modules. By quantitatively and qualitatively evaluation, AtomoVideo achieves superior results compared to popular methods, more examples can be found on our project website: https://atomo- video.github.io/.
PDF235December 15, 2024