PLA4D: 텍스트-투-4D 가우시안 스플래팅을 위한 픽셀 수준 정렬
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
May 30, 2024
저자: Qiaowei Miao, Yawei Luo, Yi Yang
cs.AI
초록
텍스트 조건부 확산 모델(DMs)이 이미지, 비디오, 3D 생성 분야에서 획기적인 성과를 거두면서, 연구 커뮤니티의 관심은 더욱 도전적인 과제인 텍스트-투-4D 합성으로 옮겨가고 있습니다. 이는 시간 차원을 도입하여 동적 3D 객체를 생성하는 작업입니다. 이러한 맥락에서, 우리는 텍스트-투-3D 합성에 널리 사용되는 Score Distillation Sampling(SDS) 기술이 Janus-faced 문제와 비현실적인 텍스처 문제, 그리고 높은 계산 비용으로 인해 텍스트-투-4D 성능에 상당한 장애물로 작용한다는 점을 발견했습니다. 본 논문에서는 텍스트-투-비디오 프레임을 명시적인 픽셀 정렬 타겟으로 활용하여 정적 3D 객체를 생성하고 여기에 모션을 주입하는 새로운 방법인 Pixel-Level Alignments for Text-to-4D Gaussian Splatting(PLA4D)을 제안합니다. 구체적으로, 우리는 렌더링을 위한 카메라 포즈를 보정하는 Focal Alignment와 픽셀 수준에서 렌더링된 이미지 대비를 통해 기하학적 사전 지식을 추출하는 GS-Mesh Contrastive Learning을 도입했습니다. 또한, 가우시안의 변화를 유도하기 위해 변형 네트워크를 사용한 Motion Alignment와 부드러운 4D 객체 표면을 위한 Reference Refinement를 개발했습니다. 이러한 기술들은 4D Gaussian Splatting이 생성된 비디오와 기하학, 텍스처, 모션을 픽셀 수준에서 정렬할 수 있게 합니다. 기존 방법과 비교하여, PLA4D는 더 나은 텍스처 디테일을 가진 합성 결과물을 더 짧은 시간에 생성하며, Janus-faced 문제를 효과적으로 완화합니다. PLA4D는 오픈소스 모델을 기반으로 완전히 구현되어 접근성과 사용 편의성이 뛰어나며, 4D 디지털 콘텐츠 제작을 위한 유망한 방향성을 제시합니다. 우리의 프로젝트 페이지는 https://github.com/MiaoQiaowei/PLA4D.github.io에서 확인할 수 있습니다.
English
As text-conditioned diffusion models (DMs) achieve breakthroughs in image,
video, and 3D generation, the research community's focus has shifted to the
more challenging task of text-to-4D synthesis, which introduces a temporal
dimension to generate dynamic 3D objects. In this context, we identify Score
Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis,
as a significant hindrance to text-to-4D performance due to its Janus-faced and
texture-unrealistic problems coupled with high computational costs. In this
paper, we propose Pixel-Level Alignments for
Text-to-4D Gaussian Splatting (PLA4D), a novel method that
utilizes text-to-video frames as explicit pixel alignment targets to generate
static 3D objects and inject motion into them. Specifically, we introduce Focal
Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive
Learning to distill geometry priors from rendered image contrasts at the pixel
level. Additionally, we develop Motion Alignment using a deformation network to
drive changes in Gaussians and implement Reference Refinement for smooth 4D
object surfaces. These techniques enable 4D Gaussian Splatting to align
geometry, texture, and motion with generated videos at the pixel level.
Compared to previous methods, PLA4D produces synthesized outputs with better
texture details in less time and effectively mitigates the Janus-faced problem.
PLA4D is fully implemented using open-source models, offering an accessible,
user-friendly, and promising direction for 4D digital content creation. Our
project page:
https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.Summary
AI-Generated Summary