ChatPaper.aiChatPaper

PhysX-Anything: 単一画像からのシミュレーション対応物理3Dアセット

PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

November 17, 2025
著者: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

要旨

3Dモデリングは、静的な視覚的表現から、シミュレーションやインタラクションに直接活用可能な物理的で関節構造を持つアセットへと移行しつつある。しかし、既存の3D生成手法の多くは、重要な物理特性や関節特性を見落としており、具体化AIにおける実用性を制限している。この課題を解決するため、我々はPhysX-Anythingを提案する。これは単一の実世界画像を入力として、明示的な形状・関節構造・物理属性を備えた高品質なシミュレーション対応3Dアセットを生成する、初のシミュレーション対応物理3D生成フレームワークである。具体的には、VLMベースの初の物理3D生成モデルに加え、形状を効率的にトークン化する新たな3D表現を開発した。これによりトークン数を193分の1に削減し、ファインチューニング時に特殊トークンを追加することなく標準的なVLMのトークン予算内で明示的な形状学習を可能とし、生成品質を大幅に向上させている。さらに、既存の物理3Dデータセットの多様性不足を克服するため、従来の物理3Dデータセットの物体カテゴリ数を2倍以上拡張し、2,000点以上の実世界オブジェクトに豊富な物理注釈を付与した新データセットPhysX-Mobilityを構築した。PhysX-Mobilityおよび実世界画像を用いた大規模実験により、PhysX-Anythingが優れた生成性能と堅牢な一般化能力を発揮することを実証した。さらにMuJoCoスタイル環境でのシミュレーション実験により、本手法で生成されたアセットが接触を多用するロボティクス方策学習に直接活用可能であることを検証した。PhysX-Anythingは、特に具体化AIおよび物理ベースシミュレーションにおける幅広い下流応用を大幅に強化できると確信している。
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.
PDF512December 1, 2025