In-2-4D: Interpolação de Duas Imagens de Visão Única para Geração 4D
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation
April 11, 2025
Autores: Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri
cs.AI
Resumo
Propomos um novo problema, In-2-4D, para a interpolação generativa em 4D (ou seja, 3D + movimento) a partir de uma configuração de entrada minimalista: duas imagens de visão única capturando um objeto em dois estados de movimento distintos. Dadas duas imagens que representam os estados inicial e final de um objeto em movimento, nosso objetivo é gerar e reconstruir o movimento em 4D. Utilizamos um modelo de interpolação de vídeo para prever o movimento, mas grandes variações entre quadros podem levar a interpretações ambíguas. Para superar isso, empregamos uma abordagem hierárquica para identificar quadros-chave que estão visualmente próximos aos estados de entrada e exibem movimento significativo, gerando então fragmentos suaves entre eles. Para cada fragmento, construímos a representação 3D do quadro-chave usando o método de *Gaussian Splatting*. Os quadros temporais dentro do fragmento guiam o movimento, permitindo sua transformação em Gaussianas dinâmicas por meio de um campo de deformação. Para melhorar a consistência temporal e refinar o movimento 3D, expandimos a auto-atenção da difusão multi-visão ao longo dos intervalos de tempo e aplicamos regularização de transformação rígida. Por fim, mesclamos os segmentos de movimento 3D gerados independentemente interpolando os campos de deformação de fronteira e otimizando-os para alinhar com o vídeo guia, garantindo transições suaves e sem cintilações. Através de extensos experimentos qualitativos e quantitativos, bem como de um estudo com usuários, demonstramos a eficácia do nosso método e de seus componentes. A página do projeto está disponível em https://in-2-4d.github.io/.
English
We propose a new problem, In-2-4D, for generative 4D (i.e., 3D + motion)
inbetweening from a minimalistic input setting: two single-view images
capturing an object in two distinct motion states. Given two images
representing the start and end states of an object in motion, our goal is to
generate and reconstruct the motion in 4D. We utilize a video interpolation
model to predict the motion, but large frame-to-frame motions can lead to
ambiguous interpretations. To overcome this, we employ a hierarchical approach
to identify keyframes that are visually close to the input states and show
significant motion, then generate smooth fragments between them. For each
fragment, we construct the 3D representation of the keyframe using Gaussian
Splatting. The temporal frames within the fragment guide the motion, enabling
their transformation into dynamic Gaussians through a deformation field. To
improve temporal consistency and refine 3D motion, we expand the self-attention
of multi-view diffusion across timesteps and apply rigid transformation
regularization. Finally, we merge the independently generated 3D motion
segments by interpolating boundary deformation fields and optimizing them to
align with the guiding video, ensuring smooth and flicker-free transitions.
Through extensive qualitative and quantitiave experiments as well as a user
study, we show the effectiveness of our method and its components. The project
page is available at https://in-2-4d.github.io/Summary
AI-Generated Summary