ChatPaper.aiChatPaper

Interpolação Explorativa de Tempo e Espaço

Explorative Inbetweening of Time and Space

March 21, 2024
Autores: Haiwen Feng, Zheng Ding, Zhihao Xia, Simon Niklaus, Victoria Abrevaya, Michael J. Black, Xuaner Zhang
cs.AI

Resumo

Apresentamos a geração limitada como uma tarefa generalizada para controlar a geração de vídeos, sintetizando movimentos arbitrários de câmera e do sujeito com base apenas em um quadro inicial e final dados. Nosso objetivo é aproveitar totalmente a capacidade inerente de generalização de um modelo de imagem para vídeo sem a necessidade de treinamento adicional ou ajuste fino do modelo original. Isso é alcançado por meio de uma nova estratégia de amostragem proposta, que chamamos de Fusão de Reversão Temporal, que funde os caminhos de remoção de ruído temporalmente para frente e para trás, condicionados ao quadro inicial e final, respectivamente. O caminho fundido resulta em um vídeo que conecta suavemente os dois quadros, gerando interpolação de movimentos fiéis do sujeito, novas visões de cenas estáticas e loops de vídeo perfeitos quando os dois quadros limitantes são idênticos. Organizamos um conjunto de dados de avaliação diversificado de pares de imagens e comparamos com os métodos existentes mais próximos. Descobrimos que a Fusão de Reversão Temporal supera os trabalhos relacionados em todas as subtarefas, demonstrando a capacidade de gerar movimentos complexos e visões 3D consistentes guiadas por quadros limitantes. Consulte a página do projeto em https://time-reversal.github.io.
English
We introduce bounded generation as a generalized task to control video generation to synthesize arbitrary camera and subject motion based only on a given start and end frame. Our objective is to fully leverage the inherent generalization capability of an image-to-video model without additional training or fine-tuning of the original model. This is achieved through the proposed new sampling strategy, which we call Time Reversal Fusion, that fuses the temporally forward and backward denoising paths conditioned on the start and end frame, respectively. The fused path results in a video that smoothly connects the two frames, generating inbetweening of faithful subject motion, novel views of static scenes, and seamless video looping when the two bounding frames are identical. We curate a diverse evaluation dataset of image pairs and compare against the closest existing methods. We find that Time Reversal Fusion outperforms related work on all subtasks, exhibiting the ability to generate complex motions and 3D-consistent views guided by bounded frames. See project page at https://time-reversal.github.io.
PDF131February 8, 2026