PhysX-Anything: Risorse 3D Fisiche Pronte per la Simulazione da una Singola Immagine
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
November 17, 2025
Autori: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
Abstract
La modellazione 3D si sta evolvendo da rappresentazioni visive statiche verso risorse fisiche e articolate che possono essere utilizzate direttamente nella simulazione e nell'interazione. Tuttavia, la maggior parte dei metodi di generazione 3D esistenti trascura le proprietà fisiche e di articolazione fondamentali, limitandone così l'utilità nell'AI incarnata. Per colmare questa lacuna, introduciamo PhysX-Anything, il primo framework generativo 3D fisico pronto per la simulazione che, data una singola immagine in condizioni reali, produce risorse 3D di alta qualità con geometria, articolazione e attributi fisici espliciti. Nello specifico, proponiamo il primo modello generativo 3D fisico basato su VLM, insieme a una nuova rappresentazione 3D che tokenizza efficientemente la geometria. Questo approccio riduce il numero di token di 193 volte, consentendo l'apprendimento esplicito della geometria entro i budget standard di token VLM senza introdurre token speciali durante il fine-tuning e migliorando significativamente la qualità generativa. Inoltre, per superare la limitata diversità dei dataset 3D fisici esistenti, abbiamo costruito un nuovo dataset, PhysX-Mobility, che espande le categorie di oggetti dei precedenti dataset 3D fisici di oltre 2 volte e include più di 2.000 oggetti comuni del mondo reale con ricche annotazioni fisiche. Esperimenti estensivi su PhysX-Mobility e immagini in condizioni reali dimostrano che PhysX-Anything offre prestazioni generative solide e una robusta generalizzazione. Inoltre, esperimenti basati sulla simulazione in un ambiente di tipo MuJoCo convalidano che le nostre risorse pronte per la simulazione possono essere utilizzate direttamente per l'apprendimento di policy robotiche ad alto contatto. Riteniamo che PhysX-Anything possa potenziare sostanzialmente un'ampia gamma di applicazioni a valle, specialmente nell'AI incarnata e nella simulazione basata sulla fisica.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.