AtomoVideo: Geração de Vídeo de Alta Fidelidade a partir de Imagens
AtomoVideo: High Fidelity Image-to-Video Generation
March 4, 2024
Autores: Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng
cs.AI
Resumo
Recentemente, a geração de vídeo alcançou um desenvolvimento significativo e rápido com base em técnicas superiores de geração de texto para imagem. Neste trabalho, propomos uma estrutura de alta fidelidade para geração de vídeo a partir de imagens, denominada AtomoVideo. Com base na injeção de imagens em múltiplas granularidades, alcançamos uma fidelidade maior do vídeo gerado em relação à imagem fornecida. Além disso, graças a conjuntos de dados de alta qualidade e estratégias de treinamento, conseguimos uma maior intensidade de movimento enquanto mantemos uma consistência e estabilidade temporal superiores. Nossa arquitetura se estende de forma flexível para a tarefa de previsão de quadros de vídeo, permitindo a previsão de sequências longas por meio de geração iterativa. Adicionalmente, devido ao design do treinamento de adaptadores, nossa abordagem pode ser bem combinada com modelos personalizados e módulos controláveis existentes. Por meio de avaliações quantitativas e qualitativas, o AtomoVideo alcança resultados superiores em comparação com métodos populares. Mais exemplos podem ser encontrados em nosso site do projeto: https://atomo-video.github.io/.
English
Recently, video generation has achieved significant rapid development based
on superior text-to-image generation techniques. In this work, we propose a
high fidelity framework for image-to-video generation, named AtomoVideo. Based
on multi-granularity image injection, we achieve higher fidelity of the
generated video to the given image. In addition, thanks to high quality
datasets and training strategies, we achieve greater motion intensity while
maintaining superior temporal consistency and stability. Our architecture
extends flexibly to the video frame prediction task, enabling long sequence
prediction through iterative generation. Furthermore, due to the design of
adapter training, our approach can be well combined with existing personalised
models and controllable modules. By quantitatively and qualitatively
evaluation, AtomoVideo achieves superior results compared to popular methods,
more examples can be found on our project website: https://atomo-
video.github.io/.