PhysX-Anything : Ressources physiques 3D prêtes pour la simulation à partir d'une seule image
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
November 17, 2025
papers.authors: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
La modélisation 3D évolue des représentations visuelles statiques vers des ressources physiques articulées pouvant être utilisées directement en simulation et interaction. Cependant, la plupart des méthodes de génération 3D existantes négligent les propriétés physiques et d'articulation essentielles, limitant ainsi leur utilité pour l'IA incarnée. Pour combler cette lacune, nous présentons PhysX-Anything, le premier cadre génératif physique 3D prêt pour la simulation qui, à partir d'une seule image en conditions réelles, produit des ressources 3D de haute qualité avec une géométrie, une articulation et des attributs physiques explicites. Spécifiquement, nous proposons le premier modèle génératif physique 3D basé sur un VLM, ainsi qu'une nouvelle représentation 3D qui tokenise efficacement la géométrie. Cette méthode réduit le nombre de tokens par un facteur 193, permettant l'apprentissage explicite de la géométrie dans les budgets standards de tokens VLM sans introduire de tokens spéciaux lors du fine-tuning, tout en améliorant significativement la qualité générative. De plus, pour pallier la diversité limitée des jeux de données physiques 3D existants, nous construisons un nouveau dataset, PhysX-Mobility, qui étend les catégories d'objets des jeux de données physiques 3D antérieurs par plus de 2x et inclut plus de 2000 objets courants du monde réel avec des annotations physiques riches. Des expériences approfondies sur PhysX-Mobility et des images en conditions réelles démontrent que PhysX-Anything offre d'excellentes performances génératives et une robuste généralisation. Par ailleurs, des expériences basées sur la simulation dans un environnement de type MuJoCo valident que nos ressources prêtes pour la simulation peuvent être directement utilisées pour l'apprentissage de politiques robotiques avec contacts riches. Nous estimons que PhysX-Anything peut considérablement renforcer un large éventail d'applications en aval, particulièrement dans l'IA incarnée et la simulation physique.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.