Trans4D: 구성적 텍스트-4D 합성을 위한 현실적인 기하학 인식 전이
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis
October 9, 2024
저자: Bohan Zeng, Ling Yang, Siyu Li, Jiaming Liu, Zixiang Zhang, Juanxi Tian, Kaixin Zhu, Yongzhen Guo, Fu-Yun Wang, Minkai Xu, Stefano Ermon, Wentao Zhang
cs.AI
초록
최근 확산 모델의 발전은 이미지 및 비디오 생성에서 우수한 능력을 보여주었으며, 4D 합성의 효과를 더욱 향상시켰다. 기존의 4D 생성 방법은 사용자 친화적인 조건을 기반으로 고품질의 4D 객체 또는 장면을 생성할 수 있어 게임 및 비디오 산업에 이점을 제공한다. 그러나 이러한 방법은 복잡한 4D 전이 내에서 중요한 객체 변형 및 상호작용을 합성하는 데 어려움을 겪는다. 이러한 도전에 대처하기 위해 본 연구에서는 현실적인 복잡한 장면 전이를 가능하게 하는 새로운 텍스트-투-4D 합성 프레임워크인 Trans4D를 제안한다. 구체적으로, 먼저 다중 모달 대형 언어 모델(Multi-Modal Large Language Models, MLLMs)을 사용하여 물리학적인 장면 설명을 생성하여 4D 장면 초기화 및 효과적인 전이 타이밍 계획을 수립한다. 그런 다음 계획을 기반으로 복잡한 장면 수준의 4D 전이를 실현하기 위해 geometry-aware 4D 전이 네트워크를 제안한다. 이는 표현력 있는 기하학적 객체 변형을 포함한다. 방대한 실험 결과, Trans4D가 정확하고 고품질의 전이를 갖는 4D 장면을 생성하는 데 기존 최첨단 방법을 일관되게 능가함을 입증하여 그 효과를 검증한다. 코드: https://github.com/YangLing0818/Trans4D
English
Recent advances in diffusion models have demonstrated exceptional
capabilities in image and video generation, further improving the effectiveness
of 4D synthesis. Existing 4D generation methods can generate high-quality 4D
objects or scenes based on user-friendly conditions, benefiting the gaming and
video industries. However, these methods struggle to synthesize significant
object deformation of complex 4D transitions and interactions within scenes. To
address this challenge, we propose Trans4D, a novel text-to-4D synthesis
framework that enables realistic complex scene transitions. Specifically, we
first use multi-modal large language models (MLLMs) to produce a physic-aware
scene description for 4D scene initialization and effective transition timing
planning. Then we propose a geometry-aware 4D transition network to realize a
complex scene-level 4D transition based on the plan, which involves expressive
geometrical object deformation. Extensive experiments demonstrate that Trans4D
consistently outperforms existing state-of-the-art methods in generating 4D
scenes with accurate and high-quality transitions, validating its
effectiveness. Code: https://github.com/YangLing0818/Trans4DSummary
AI-Generated Summary