PhysX-Anything: Simulationsfertige physische 3D-Assets aus Einzelbildern
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
November 17, 2025
papers.authors: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
Die 3D-Modellierung entwickelt sich von statischen visuellen Darstellungen hin zu physischen, artikulierten Assets, die direkt in Simulationen und Interaktionen eingesetzt werden können. Die meisten bestehenden 3D-Generierungsmethoden vernachlässigen jedoch wesentliche physikalische und Artikulationseigenschaften, was ihre Nützlichkeit für embodied AI einschränkt. Um diese Lücke zu schließen, stellen wir PhysX-Anything vor, das erste simulationsfertige physikalische 3D-Generierungsframework, das aus einem einzelnen beliebigen Bild hochwertige simulationsfertige 3D-Assets mit expliziter Geometrie, Artikulation und physikalischen Attributen erzeugt. Konkret schlagen wir das erste VLM-basierte physikalische 3D-Generierungsmodell vor, zusammen mit einer neuen 3D-Repräsentation, die Geometrie effizient tokenisiert. Diese reduziert die Anzahl der Tokens um das 193-fache, ermöglicht explizites Geometrielernen innerhalb standardmäßiger VLM-Token-Budgets ohne Einführung spezieller Tokens während des Fine-Tunings und verbessert die Generierungsqualität erheblich. Zudem haben wir zur Überwindung der begrenzten Vielfalt bestehender physikalischer 3D-Datensätze einen neuen Datensatz, PhysX-Mobility, erstellt, der die Objektkategorien früherer physikalischer 3D-Datensätze um über das Doppelte erweitert und mehr als 2.000 gängige Alltagsobjekte mit umfangreichen physikalischen Annotationen umfasst. Umfangreiche Experimente mit PhysX-Mobility und beliebigen Bildern demonstrieren, dass PhysX-Anything eine starke Generierungsleistung und robuste Generalisierung bietet. Simulationsbasierte Experimente in einer MuJoCo-ähnlichen Umgebung validieren zudem, dass unsere simulationsfertigen Assets direkt für kontaktintensives robotisches Policy-Learning verwendet werden können. Wir sind überzeugt, dass PhysX-Anything eine breite Palette nachgelagerter Anwendungen, insbesondere in embodied AI und physikbasierten Simulationen, wesentlich stärken kann.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.