PhysX: 물리 기반 3D 자산 생성
PhysX: Physical-Grounded 3D Asset Generation
July 16, 2025
저자: Ziang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu
cs.AI
초록
3D 모델링은 가상에서 물리적 영역으로 이동하고 있습니다. 기존의 3D 생성 기술은 주로 형상과 텍스처에 중점을 두면서 물리적 기반 모델링을 소홀히 해왔습니다. 그 결과, 3D 생성 모델의 급속한 발전에도 불구하고, 합성된 3D 자산들은 종종 풍부하고 중요한 물리적 특성을 간과하여 시뮬레이션 및 구체화된 AI와 같은 물리적 영역에서의 실제 적용을 방해하고 있습니다. 이러한 문제를 해결하기 위한 초기 시도로, 우리는 물리적 기반 3D 자산 생성을 위한 종단 간 패러다임인 PhysX를 제안합니다. 1) 물리적 주석이 달린 3D 데이터셋의 중요한 격차를 해소하기 위해, 우리는 절대적 크기, 재질, 어포던스, 운동학, 기능 설명 등 다섯 가지 기본 차원에 걸쳐 체계적으로 주석이 달린 최초의 물리적 기반 3D 데이터셋인 PhysXNet을 소개합니다. 특히, 우리는 비전-언어 모델을 기반으로 한 확장 가능한 인간 참여형 주석 파이프라인을 고안하여 원시 3D 자산으로부터 물리적 특성을 우선시하는 자산을 효율적으로 생성할 수 있도록 했습니다. 2) 또한, 우리는 사전 학습된 3D 구조 공간에 물리적 지식을 주입하여 물리적 기반 이미지-3D 자산 생성을 위한 순방향 프레임워크인 PhysXGen을 제안합니다. 구체적으로, PhysXGen은 3D 구조와 물리적 특성 간의 잠재적 상관관계를 명시적으로 모델링하기 위해 이중 분기 아키텍처를 사용함으로써, 원래의 형상 품질을 유지하면서도 타당한 물리적 예측을 제공하는 3D 자산을 생성합니다. 광범위한 실험을 통해 우리 프레임워크의 우수한 성능과 유망한 일반화 능력을 검증했습니다. 모든 코드, 데이터, 모델은 생성적 물리적 AI 연구를 촉진하기 위해 공개될 예정입니다.
English
3D modeling is moving from virtual to physical. Existing 3D generation
primarily emphasizes geometries and textures while neglecting physical-grounded
modeling. Consequently, despite the rapid development of 3D generative models,
the synthesized 3D assets often overlook rich and important physical
properties, hampering their real-world application in physical domains like
simulation and embodied AI. As an initial attempt to address this challenge, we
propose PhysX, an end-to-end paradigm for physical-grounded 3D asset
generation. 1) To bridge the critical gap in physics-annotated 3D datasets, we
present PhysXNet - the first physics-grounded 3D dataset systematically
annotated across five foundational dimensions: absolute scale, material,
affordance, kinematics, and function description. In particular, we devise a
scalable human-in-the-loop annotation pipeline based on vision-language models,
which enables efficient creation of physics-first assets from raw 3D assets.2)
Furthermore, we propose PhysXGen, a feed-forward framework for
physics-grounded image-to-3D asset generation, injecting physical knowledge
into the pre-trained 3D structural space. Specifically, PhysXGen employs a
dual-branch architecture to explicitly model the latent correlations between 3D
structures and physical properties, thereby producing 3D assets with plausible
physical predictions while preserving the native geometry quality. Extensive
experiments validate the superior performance and promising generalization
capability of our framework. All the code, data, and models will be released to
facilitate future research in generative physical AI.