PhysX-Anything: Simulatieklare Fysieke 3D-assets vanuit één Afbeelding
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
November 17, 2025
Auteurs: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
Samenvatting
3D-modellering verschuift van statische visuele representaties naar fysieke, gearticuleerde objecten die direct kunnen worden gebruikt in simulatie en interactie. De meeste bestaande 3D-generatiemethoden negeren echter cruciale fysieke en articulatie-eigenschappen, wat hun bruikbaarheid in embodied AI beperkt. Om deze kloof te overbruggen, introduceren we PhysX-Anything, het eerste simulatiegereede fysieke 3D-generatieve framework dat, uitgaande van een enkele afbeelding uit de praktijk, hoogwaardige simulatieklare 3D-objecten produceert met expliciete geometrie, articulatie en fysieke attributen. Specifiek stellen we het eerste op VLM gebaseerde fysieke 3D-generatieve model voor, samen met een nieuwe 3D-representatie die geometrie efficiënt tokeniseert. Dit reduceert het aantal tokens met een factor 193, waardoor expliciete geometrie-aanleer mogelijk wordt binnen standaard VLM-tokenbudgetten zonder speciale tokens tijdens fine-tuning te introduceren, wat de generatieve kwaliteit aanzienlijk verbetert. Daarnaast construeren we, om de beperkte diversiteit van bestaande fysieke 3D-datasets te overwinnen, een nieuwe dataset genaamd PhysX-Mobility, die de objectcategorieën in eerdere fysieke 3D-datasets meer dan verdubbelt en meer dan 2000 algemene objecten uit de echte wereld omvat met uitgebreide fysieke annotaties. Uitgebreide experimenten op PhysX-Mobility en afbeeldingen uit de praktijk tonen aan dat PhysX-Anything sterke generatieve prestaties en robuuste generalisatie levert. Verder valideren op simulatie gebaseerde experimenten in een MuJoCo-achtige omgeving dat onze simulatieklare objecten direct kunnen worden gebruikt voor contactrijk robotica-beleidsleren. Wij geloven dat PhysX-Anything een breed scala aan downstream-toepassingen aanzienlijk kan versterken, met name in embodied AI en op fysica gebaseerde simulatie.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.