ChatPaper.aiChatPaper

PhysX-Anything: Готовые к симуляции физические 3D-ассеты из одного изображения

PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

November 17, 2025
Авторы: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

Аннотация

Трехмерное моделирование переходит от статических визуальных представлений к физическим, сочлененным объектам, которые могут напрямую использоваться в симуляции и взаимодействии. Однако большинство существующих методов генерации 3D игнорируют ключевые физические и артикуляционные свойства, что ограничивает их полезность для воплощенного ИИ. Для преодоления этого разрыва мы представляем PhysX-Anything — первую симуляционно-готовую физическую фреймворк-генеративную систему 3D, которая на основе одного изображения из реального мира создает высококачественные симуляционно-готовые 3D-объекты с явной геометрией, артикуляцией и физическими атрибутами. В частности, мы предлагаем первую VLM-основанную физическую генеративную модель 3D вместе с новым 3D-представлением, эффективно токенизирующим геометрию. Оно сокращает количество токенов в 193 раза, позволяя явное обучение геометрии в рамках стандартных бюджетов токенов VLM без введения специальных токенов во время дообучения и значительно повышая качество генерации. Кроме того, для преодоления ограниченного разнообразия существующих физических 3D-датасетов мы создали новый набор данных PhysX-Mobility, который расширяет категории объектов в предыдущих физических 3D-датасетах более чем в 2 раза и включает свыше 2000 распространенных объектов реального мира с богатыми физическими аннотациями. Многочисленные эксперименты на PhysX-Mobility и изображениях из реального мира демонстрируют, что PhysX-Anything обеспечивает высокую генеративную производительность и надежную обобщающую способность. Более того, эксперименты на основе симуляции в среде MuJoCo подтверждают, что наши симуляционно-готовые объекты могут напрямую использоваться для обучения роботизированных политик, богатых контактами. Мы считаем, что PhysX-Anything может существенно расширить возможности широкого спектра downstream-приложений, особенно в области воплощенного ИИ и физически-основанной симуляции.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.
PDF512December 1, 2025