PhysX-Anything: Ativos Físicos 3D Prontos para Simulação a Partir de uma Única Imagem

Resumo

A modelagem 3D está a evoluir de representações visuais estáticas para recursos físicos articulados que podem ser usados diretamente em simulação e interação. No entanto, a maioria dos métodos de geração 3D existentes ignora propriedades físicas e de articulação fundamentais, limitando assim a sua utilidade em IA incorporada. Para colmatar esta lacuna, introduzimos o PhysX-Anything, o primeiro quadro generativo de modelos 3D físicos prontos para simulação que, dada uma única imagem do mundo real, produz recursos 3D de alta qualidade prontos para simulação, com geometria, articulação e atributos físicos explícitos. Especificamente, propomos o primeiro modelo generativo 3D físico baseado em VLM (Modelo de Linguagem de Visão), juntamente com uma nova representação 3D que tokeniza a geometria de forma eficiente. Este método reduz o número de tokens em 193 vezes, permitindo a aprendizagem explícita de geometria dentro dos limites padrão de tokens de VLM sem introduzir tokens especiais durante o *fine-tuning* e melhorando significativamente a qualidade generativa. Além disso, para superar a diversidade limitada dos conjuntos de dados 3D físicos existentes, construímos um novo conjunto de dados, o PhysX-Mobility, que expande as categorias de objetos em conjuntos de dados 3D físicos anteriores em mais de 2 vezes e inclui mais de 2.000 objetos comuns do mundo real com anotações físicas ricas. Experiências extensivas no PhysX-Mobility e em imagens do mundo real demonstram que o PhysX-Anything oferece um forte desempenho generativo e uma generalização robusta. Além disso, experiências baseadas em simulação num ambiente do estilo MuJoCo validam que os nossos recursos prontos para simulação podem ser usados diretamente para a aprendizagem de políticas robóticas com contacto intensivo. Acreditamos que o PhysX-Anything pode potenciar substancialmente uma ampla gama de aplicações a jusante, especialmente em IA incorporada e simulação baseada em física.

English

3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.

PhysX-Anything: Ativos Físicos 3D Prontos para Simulação a Partir de uma Única Imagem

PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

Resumo

Support