Trans4D:構成テキストから4次元合成のための現実的な幾何学認識トランジション
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis
October 9, 2024
著者: Bohan Zeng, Ling Yang, Siyu Li, Jiaming Liu, Zixiang Zhang, Juanxi Tian, Kaixin Zhu, Yongzhen Guo, Fu-Yun Wang, Minkai Xu, Stefano Ermon, Wentao Zhang
cs.AI
要旨
最近の拡散モデルの進歩により、画像およびビデオ生成において卓越した能力が示され、4次元合成の効果がさらに向上しています。既存の4D生成手法は、ユーザーフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成でき、ゲームおよびビデオ産業に利益をもたらしています。ただし、これらの手法は、複雑な4D遷移内の重要なオブジェクト変形やシーン内の相互作用を合成するのに苦労しています。この課題に対処するために、我々はTrans4Dを提案します。これは、リアルな複雑なシーン遷移を可能にする新しいテキスト対4D合成フレームワークです。具体的には、最初に多様なモダリティを持つ大規模言語モデル(MLLMs)を使用して、物理を考慮した4Dシーンの説明を生成し、効果的な遷移タイミングの計画を行います。次に、計画に基づいて複雑なシーンレベルの4D遷移を実現するための幾何学を考慮した4D遷移ネットワークを提案します。これには、表現豊かな幾何学的オブジェクト変形が含まれます。幅広い実験により、Trans4Dが正確で高品質な遷移を持つ4Dシーンを生成する点で、既存の最先端手法を一貫して上回ることが示され、その効果が検証されました。コード: https://github.com/YangLing0818/Trans4D
English
Recent advances in diffusion models have demonstrated exceptional
capabilities in image and video generation, further improving the effectiveness
of 4D synthesis. Existing 4D generation methods can generate high-quality 4D
objects or scenes based on user-friendly conditions, benefiting the gaming and
video industries. However, these methods struggle to synthesize significant
object deformation of complex 4D transitions and interactions within scenes. To
address this challenge, we propose Trans4D, a novel text-to-4D synthesis
framework that enables realistic complex scene transitions. Specifically, we
first use multi-modal large language models (MLLMs) to produce a physic-aware
scene description for 4D scene initialization and effective transition timing
planning. Then we propose a geometry-aware 4D transition network to realize a
complex scene-level 4D transition based on the plan, which involves expressive
geometrical object deformation. Extensive experiments demonstrate that Trans4D
consistently outperforms existing state-of-the-art methods in generating 4D
scenes with accurate and high-quality transitions, validating its
effectiveness. Code: https://github.com/YangLing0818/Trans4DSummary
AI-Generated Summary