PhysX-Anything: Activos Físicos 3D Listos para Simulación a Partir de una Única Imagen
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
November 17, 2025
Autores: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
Resumen
La modelización 3D está evolucionando desde representaciones visuales estáticas hacia activos físicos y articulados que pueden utilizarse directamente en simulación e interacción. Sin embargo, la mayoría de los métodos de generación 3D existentes pasan por alto propiedades físicas y de articulación clave, limitando así su utilidad en IA encarnada. Para cerrar esta brecha, presentamos PhysX-Anything, el primer marco generativo físico 3D listo para simulación que, dada una única imagen del mundo real, produce activos 3D de alta calidad con geometría, articulación y atributos físicos explícitos. Específicamente, proponemos el primer modelo generativo físico 3D basado en VLM, junto con una nueva representación 3D que tokeniza la geometría de manera eficiente. Reduce el número de tokens en 193 veces, permitiendo el aprendizaje explícito de geometría dentro de los límites estándar de tokens VLM sin introducir tokens especiales durante el ajuste fino y mejorando significativamente la calidad generativa. Además, para superar la diversidad limitada de los conjuntos de datos físicos 3D existentes, construimos un nuevo conjunto de datos, PhysX-Mobility, que expande las categorías de objetos en conjuntos de datos físicos 3D previos en más de 2 veces e incluye más de 2.000 objetos comunes del mundo real con anotaciones físicas ricas. Experimentos exhaustivos en PhysX-Mobility e imágenes del mundo real demuestran que PhysX-Anything ofrece un fuerte rendimiento generativo y una robusta generalización. Además, experimentos basados en simulación en un entorno estilo MuJoCo validan que nuestros activos listos para simulación pueden usarse directamente para el aprendizaje de políticas robóticas con contacto intensivo. Creemos que PhysX-Anything puede potenciar sustancialmente una amplia gama de aplicaciones posteriores, especialmente en IA encarnada y simulación basada en física.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.