ChatPaper.aiChatPaper

PhysX-Anything: 단일 이미지로부터 시뮬레이션 준비가 완료된 물리 기반 3D 에셋 생성

PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image

November 17, 2025
저자: Ziang Cao, Fangzhou Hong, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

초록

3D 모델링은 정적인 시각적 표현에서 시뮬레이션 및 상호작용에 직접 사용 가능한 물리적 관절 구조 자산으로 전환되고 있습니다. 그러나 대부분의 기존 3D 생성 방법은 핵심 물리 및 관절 특성을 간과하여 구현형 AI에서의 유용성이 제한됩니다. 이러한 격차를 해소하기 위해 우리는 단일 실제 환경 이미지를 입력으로 받아 명시적 기하학, 관절 구조, 물리적 속성을 갖춘 고품질의 시뮬레이션 준비 3D 자산을 생성하는 최초의 시뮬레이션 준비 물리 3D 생성 프레임워크인 PhysX-Anything을 소개합니다. 구체적으로, 우리는 최초의 VLM 기반 물리 3D 생성 모델과 기하학을 효율적으로 토큰화하는 새로운 3D 표현 방식을 제안합니다. 이는 토큰 수를 193배 줄여 파인튜닝 과정에서 특수 토큰을 도입하지 않고도 표준 VLM 토큰 예산 내에서 명시적 기하학 학습을 가능하게 하며 생성 품질을 크게 향상시킵니다. 추가적으로, 기존 물리 3D 데이터셋의 제한된 다양성을 극복하기 위해 우리는 새로운 데이터셋인 PhysX-Mobility를 구축했습니다. 이는 기존 물리 3D 데이터셋의 객체 범주를 2배 이상 확장하고 풍부한 물리 주석이 포함된 2,000개 이상의 일반적인 실세계 객체를 포함합니다. PhysX-Mobility 및 실제 환경 이미지에 대한 광범위한 실험을 통해 PhysX-Anything이 강력한 생성 성능과 견고한 일반화 능력을 제공함을 입증했습니다. 더 나아가, MuJoCo 스타일 환경에서의 시뮬레이션 기반 실험을 통해 우리의 시뮬레이션 준비 자산이 접촉이 풍부한 로봇 정책 학습에 직접 사용될 수 있음을 검증했습니다. 우리는 PhysX-Anything이 구현형 AI 및 물리 기반 시뮬레이션을 비롯한 광범위한 다운스트림 애플리케이션에 상당한 역량을 부여할 수 있을 것으로 믿습니다.
English
3D modeling is shifting from static visual representations toward physical, articulated assets that can be directly used in simulation and interaction. However, most existing 3D generation methods overlook key physical and articulation properties, thereby limiting their utility in embodied AI. To bridge this gap, we introduce PhysX-Anything, the first simulation-ready physical 3D generative framework that, given a single in-the-wild image, produces high-quality sim-ready 3D assets with explicit geometry, articulation, and physical attributes. Specifically, we propose the first VLM-based physical 3D generative model, along with a new 3D representation that efficiently tokenizes geometry. It reduces the number of tokens by 193x, enabling explicit geometry learning within standard VLM token budgets without introducing any special tokens during fine-tuning and significantly improving generative quality. In addition, to overcome the limited diversity of existing physical 3D datasets, we construct a new dataset, PhysX-Mobility, which expands the object categories in prior physical 3D datasets by over 2x and includes more than 2K common real-world objects with rich physical annotations. Extensive experiments on PhysX-Mobility and in-the-wild images demonstrate that PhysX-Anything delivers strong generative performance and robust generalization. Furthermore, simulation-based experiments in a MuJoCo-style environment validate that our sim-ready assets can be directly used for contact-rich robotic policy learning. We believe PhysX-Anything can substantially empower a broad range of downstream applications, especially in embodied AI and physics-based simulation.
PDF512December 1, 2025