객체를 살려내기: 3D 객체로부터의 4D 생성Bringing Objects to Life: 4D generation from 3D objects
최근 발전된 생성 모델링 기술을 통해 이제는 텍스트 프롬프트로 제어되는 4D 콘텐츠(움직이는 3D 객체)를 생성할 수 있습니다. 4D 생성은 가상 세계, 미디어, 게임 등 다양한 응용 분야에서 큰 잠재력을 가지고 있지만, 기존 방법은 생성된 콘텐츠의 외관과 기하에 대한 제어를 제한합니다. 본 연구에서는 사용자가 제공한 3D 객체를 애니메이션화하는 방법을 소개하며, 텍스트 프롬프트를 활용하여 4D 생성을 안내함으로써 원본 객체의 정체성을 유지하면서 사용자 정의 애니메이션을 가능하게 합니다. 먼저, 3D 메쉬를 입력 객체의 시각적 속성을 보존하는 "정적" 4D 신경 방사율 필드(NeRF)로 변환합니다. 그런 다음, 텍스트에 의해 구동되는 이미지-비디오 확산 모델을 사용하여 객체를 애니메이션화합니다. 움직임의 현실성을 향상시키기 위해, 사실적인 움직임을 촉진하기 위해 관점 선택 프로토콜을 도입하고, 관련 영역에 최적화를 집중하기 위해 주의 맵을 활용하는 마스킹된 점수 증류 샘플링(SDS) 손실을 도입합니다. 우리는 시간적 일관성, 프롬프트 준수, 시각적 충실도 측면에서 모델을 평가하고, LPIPS 점수를 사용하여 측정한 정체성 보존에서 최대 3배의 개선을 달성하며 시각적 품질과 동적 콘텐츠 간의 균형을 효과적으로 유지하는 기존 접근 방식을 기반으로 한 기준선을 능가하는 결과를 얻습니다.