DropletVideo: Um Conjunto de Dados e Abordagem para Explorar a Geração de Vídeo com Consistência Espaço-Temporal IntegralDropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal
Consistent Video Generation
A consistência espaço-temporal é um tópico de pesquisa crítico na geração de vídeos. Um segmento de vídeo gerado qualificado deve garantir a plausibilidade e coerência da narrativa, mantendo a consistência visual de objetos e cenas em diferentes pontos de vista. Pesquisas anteriores, especialmente em projetos de código aberto, concentram-se principalmente na consistência temporal ou espacial, ou em sua combinação básica, como adicionar uma descrição de movimento de câmera após um prompt sem restringir os resultados desse movimento. No entanto, o movimento da câmera pode introduzir novos objetos na cena ou eliminar os existentes, sobrepondo e afetando a narrativa anterior. Especialmente em vídeos com numerosos movimentos de câmera, a interação entre múltiplas tramas torna-se cada vez mais complexa. Este artigo introduz e examina a consistência espaço-temporal integral, considerando a sinergia entre a progressão da trama e as técnicas de câmera, e o impacto de longo prazo do conteúdo anterior na geração subsequente. Nossa pesquisa abrange desde a construção de conjuntos de dados até o desenvolvimento do modelo. Inicialmente, construímos o conjunto de dados DropletVideo-10M, que compreende 10 milhões de vídeos com movimentos dinâmicos de câmera e ações de objetos. Cada vídeo é anotado com uma legenda média de 206 palavras, detalhando vários movimentos de câmera e desenvolvimentos da trama. Em seguida, desenvolvemos e treinamos o modelo DropletVideo, que se destaca na preservação da coerência espaço-temporal durante a geração de vídeos. O conjunto de dados e o modelo DropletVideo estão disponíveis em https://dropletx.github.io.