ChatPaper.aiChatPaper

In-2-4D: 단일 뷰 이미지 두 장에서 4D 생성으로의 중간 프레임 생성

In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

April 11, 2025
저자: Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri
cs.AI

초록

우리는 최소한의 입력 설정(두 개의 단일 뷰 이미지로 객체의 두 가지 서로 다른 동작 상태를 캡처)에서 생성적 4D(즉, 3D + 동작) 인비트위닝을 위한 새로운 문제인 In-2-4D를 제안합니다. 움직이는 객체의 시작과 끝 상태를 나타내는 두 이미지가 주어졌을 때, 우리의 목표는 4D에서 동작을 생성하고 재구성하는 것입니다. 우리는 동작을 예측하기 위해 비디오 보간 모델을 사용하지만, 프레임 간의 큰 움직임은 모호한 해석을 초래할 수 있습니다. 이를 극복하기 위해, 우리는 계층적 접근 방식을 사용하여 입력 상태와 시각적으로 가깝고 상당한 움직임을 보이는 키프레임을 식별한 후, 그 사이에 부드러운 조각을 생성합니다. 각 조각에 대해, 우리는 Gaussian Splatting을 사용하여 키프레임의 3D 표현을 구성합니다. 조각 내의 시간적 프레임은 동작을 안내하며, 변형 필드를 통해 동적 가우시안으로의 변환을 가능하게 합니다. 시간적 일관성을 개선하고 3D 동작을 정제하기 위해, 우리는 다중 뷰 확산의 자기 주의를 시간 단계에 걸쳐 확장하고 강체 변형 정규화를 적용합니다. 마지막으로, 우리는 독립적으로 생성된 3D 동작 세그먼트를 경계 변형 필드를 보간하고 이를 안내 비디오와 일치하도록 최적화하여 부드럽고 깜빡임 없는 전환을 보장합니다. 광범위한 정성적 및 정량적 실험과 사용자 연구를 통해, 우리는 우리의 방법과 그 구성 요소의 효과를 보여줍니다. 프로젝트 페이지는 https://in-2-4d.github.io/에서 확인할 수 있습니다.
English
We propose a new problem, In-2-4D, for generative 4D (i.e., 3D + motion) inbetweening from a minimalistic input setting: two single-view images capturing an object in two distinct motion states. Given two images representing the start and end states of an object in motion, our goal is to generate and reconstruct the motion in 4D. We utilize a video interpolation model to predict the motion, but large frame-to-frame motions can lead to ambiguous interpretations. To overcome this, we employ a hierarchical approach to identify keyframes that are visually close to the input states and show significant motion, then generate smooth fragments between them. For each fragment, we construct the 3D representation of the keyframe using Gaussian Splatting. The temporal frames within the fragment guide the motion, enabling their transformation into dynamic Gaussians through a deformation field. To improve temporal consistency and refine 3D motion, we expand the self-attention of multi-view diffusion across timesteps and apply rigid transformation regularization. Finally, we merge the independently generated 3D motion segments by interpolating boundary deformation fields and optimizing them to align with the guiding video, ensuring smooth and flicker-free transitions. Through extensive qualitative and quantitiave experiments as well as a user study, we show the effectiveness of our method and its components. The project page is available at https://in-2-4d.github.io/

Summary

AI-Generated Summary

PDF102April 14, 2025