PhysX: 物理ベースの3Dアセット生成
PhysX: Physical-Grounded 3D Asset Generation
July 16, 2025
著者: Ziang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu
cs.AI
要旨
3Dモデリングは仮想から物理的な領域へと移行しつつある。既存の3D生成技術は主に形状とテクスチャに重点を置き、物理的な基盤に基づくモデリングを軽視してきた。その結果、3D生成モデルの急速な発展にもかかわらず、合成された3Dアセットは豊かで重要な物理的特性を見落としがちで、シミュレーションやエンボディードAIなどの物理的領域での実世界応用を妨げている。この課題に対処するための最初の試みとして、我々は物理的基盤に基づく3Dアセット生成のためのエンドツーエンドのパラダイムであるPhysXを提案する。1) 物理的に注釈付けされた3Dデータセットの重要なギャップを埋めるために、絶対スケール、材質、アフォーダンス、運動学、機能記述という5つの基礎的な次元にわたって体系的に注釈付けされた最初の物理的基盤に基づく3DデータセットであるPhysXNetを提示する。特に、ビジョン言語モデルに基づくスケーラブルな人間参加型注釈パイプラインを考案し、生の3Dアセットから物理ファーストのアセットを効率的に作成することを可能にする。2) さらに、物理的知識を事前学習済みの3D構造空間に注入する、物理的基盤に基づく画像から3Dアセット生成のためのフィードフォワードフレームワークであるPhysXGenを提案する。具体的には、PhysXGenはデュアルブランチアーキテクチャを採用し、3D構造と物理的特性の間の潜在的な相関を明示的にモデル化することで、本来の形状品質を保ちつつも物理的に妥当な予測を持つ3Dアセットを生成する。広範な実験により、我々のフレームワークの優れた性能と有望な汎化能力が検証された。すべてのコード、データ、モデルは、生成物理AIの将来の研究を促進するために公開される。
English
3D modeling is moving from virtual to physical. Existing 3D generation
primarily emphasizes geometries and textures while neglecting physical-grounded
modeling. Consequently, despite the rapid development of 3D generative models,
the synthesized 3D assets often overlook rich and important physical
properties, hampering their real-world application in physical domains like
simulation and embodied AI. As an initial attempt to address this challenge, we
propose PhysX, an end-to-end paradigm for physical-grounded 3D asset
generation. 1) To bridge the critical gap in physics-annotated 3D datasets, we
present PhysXNet - the first physics-grounded 3D dataset systematically
annotated across five foundational dimensions: absolute scale, material,
affordance, kinematics, and function description. In particular, we devise a
scalable human-in-the-loop annotation pipeline based on vision-language models,
which enables efficient creation of physics-first assets from raw 3D assets.2)
Furthermore, we propose PhysXGen, a feed-forward framework for
physics-grounded image-to-3D asset generation, injecting physical knowledge
into the pre-trained 3D structural space. Specifically, PhysXGen employs a
dual-branch architecture to explicitly model the latent correlations between 3D
structures and physical properties, thereby producing 3D assets with plausible
physical predictions while preserving the native geometry quality. Extensive
experiments validate the superior performance and promising generalization
capability of our framework. All the code, data, and models will be released to
facilitate future research in generative physical AI.