In-2-4D: Interpolação de Duas Imagens de Visão Única para Geração 4D

Resumo

Propomos um novo problema, In-2-4D, para a interpolação generativa em 4D (ou seja, 3D + movimento) a partir de uma configuração de entrada minimalista: duas imagens de visão única capturando um objeto em dois estados de movimento distintos. Dadas duas imagens que representam os estados inicial e final de um objeto em movimento, nosso objetivo é gerar e reconstruir o movimento em 4D. Utilizamos um modelo de interpolação de vídeo para prever o movimento, mas grandes variações entre quadros podem levar a interpretações ambíguas. Para superar isso, empregamos uma abordagem hierárquica para identificar quadros-chave que estão visualmente próximos aos estados de entrada e exibem movimento significativo, gerando então fragmentos suaves entre eles. Para cada fragmento, construímos a representação 3D do quadro-chave usando o método de *Gaussian Splatting*. Os quadros temporais dentro do fragmento guiam o movimento, permitindo sua transformação em Gaussianas dinâmicas por meio de um campo de deformação. Para melhorar a consistência temporal e refinar o movimento 3D, expandimos a auto-atenção da difusão multi-visão ao longo dos intervalos de tempo e aplicamos regularização de transformação rígida. Por fim, mesclamos os segmentos de movimento 3D gerados independentemente interpolando os campos de deformação de fronteira e otimizando-os para alinhar com o vídeo guia, garantindo transições suaves e sem cintilações. Através de extensos experimentos qualitativos e quantitativos, bem como de um estudo com usuários, demonstramos a eficácia do nosso método e de seus componentes. A página do projeto está disponível em https://in-2-4d.github.io/.

English

We propose a new problem, In-2-4D, for generative 4D (i.e., 3D + motion) inbetweening from a minimalistic input setting: two single-view images capturing an object in two distinct motion states. Given two images representing the start and end states of an object in motion, our goal is to generate and reconstruct the motion in 4D. We utilize a video interpolation model to predict the motion, but large frame-to-frame motions can lead to ambiguous interpretations. To overcome this, we employ a hierarchical approach to identify keyframes that are visually close to the input states and show significant motion, then generate smooth fragments between them. For each fragment, we construct the 3D representation of the keyframe using Gaussian Splatting. The temporal frames within the fragment guide the motion, enabling their transformation into dynamic Gaussians through a deformation field. To improve temporal consistency and refine 3D motion, we expand the self-attention of multi-view diffusion across timesteps and apply rigid transformation regularization. Finally, we merge the independently generated 3D motion segments by interpolating boundary deformation fields and optimizing them to align with the guiding video, ensuring smooth and flicker-free transitions. Through extensive qualitative and quantitiave experiments as well as a user study, we show the effectiveness of our method and its components. The project page is available at https://in-2-4d.github.io/

In-2-4D: Interpolação de Duas Imagens de Visão Única para Geração 4D

In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Resumo

Summary

Support

Support