가우시안을 정렬하라: 동적 3D 가우시안과 합성된 확산 모델을 활용한 텍스트-투-4D
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
저자: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
초록
텍스트 기반 확산 모델은 이미지 및 비디오 생성 분야에 혁신을 가져왔으며, 최적화 기반 3D 객체 합성에도 성공적으로 적용되어 왔습니다. 본 연구에서는 이와 달리 상대적으로 덜 탐구된 텍스트-투-4D 설정에 초점을 맞추어, 시간 차원을 추가한 점수 증류 방법을 통해 동적이고 애니메이션된 3D 객체를 합성합니다. 기존 연구와 비교하여, 우리는 새로운 조합적 생성 기반 접근법을 추구하며, 텍스트-투-이미지, 텍스트-투-비디오, 그리고 3D 인식 다중 뷰 확산 모델을 결합하여 4D 객체 최적화 과정 중 피드백을 제공함으로써 시간적 일관성, 고품질 시각적 외관, 그리고 현실적인 기하학을 동시에 강화합니다. 우리의 방법인 Align Your Gaussians(AYG)는 변형 필드를 포함한 동적 3D 가우시안 스플래팅을 4D 표현으로 활용합니다. AYG의 핵심은 움직이는 3D 가우시안의 분포를 규제하여 최적화를 안정화하고 움직임을 유도하는 새로운 방법입니다. 또한, 우리는 모션 증폭 메커니즘과 새로운 자기회귀 합성 방식을 제안하여 더 긴 생성을 위해 여러 4D 시퀀스를 생성하고 결합합니다. 이러한 기술들은 생동감 있는 동적 장면을 합성하고, 기존 연구를 질적 및 양적으로 능가하며, 최첨단 텍스트-투-4D 성능을 달성할 수 있게 합니다. 가우시안 4D 표현 덕분에, 우리가 보여주듯이 다양한 4D 애니메이션을 원활하게 결합할 수 있습니다. AYG는 애니메이션, 시뮬레이션, 디지털 콘텐츠 제작 및 합성 데이터 생성에 유망한 가능성을 열어줍니다.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.