PhysX: Physikalisch fundierte 3D-Asset-Generierung
PhysX: Physical-Grounded 3D Asset Generation
July 16, 2025
papers.authors: Ziang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu
cs.AI
papers.abstract
Die 3D-Modellierung bewegt sich vom Virtuellen ins Physische. Bisherige 3D-Generierungsansätze konzentrieren sich hauptsächlich auf Geometrien und Texturen, während die physikalisch fundierte Modellierung vernachlässigt wird. Folglich übersehen die synthetisierten 3D-Assets trotz der rasanten Entwicklung von 3D-Generierungsmodellen oft reichhaltige und wichtige physikalische Eigenschaften, was ihre Anwendung in realen physikalischen Domänen wie Simulationen und embodied AI behindert. Als ersten Ansatz zur Bewältigung dieser Herausforderung schlagen wir PhysX vor, ein end-to-end Paradigma für die physikalisch fundierte Generierung von 3D-Assets. 1) Um die kritische Lücke in physikalisch annotierten 3D-Datensätzen zu schließen, präsentieren wir PhysXNet – den ersten physikalisch fundierten 3D-Datensatz, der systematisch über fünf grundlegende Dimensionen annotiert ist: absolute Skalierung, Material, Affordanz, Kinematik und Funktionsbeschreibung. Insbesondere entwickeln wir eine skalierbare Human-in-the-Loop-Annotationspipeline basierend auf Vision-Language-Modellen, die die effiziente Erstellung von physikalisch priorisierten Assets aus rohen 3D-Assets ermöglicht. 2) Darüber hinaus schlagen wir PhysXGen vor, ein Feedforward-Framework für die physikalisch fundierte Bild-zu-3D-Asset-Generierung, das physikalisches Wissen in den vortrainierten 3D-Strukturraum injiziert. Konkret verwendet PhysXGen eine Dual-Branch-Architektur, um die latenten Korrelationen zwischen 3D-Strukturen und physikalischen Eigenschaften explizit zu modellieren, wodurch 3D-Assets mit plausiblen physikalischen Vorhersagen erzeugt werden, während die native Geometriequalität erhalten bleibt. Umfangreiche Experimente bestätigen die überlegene Leistung und vielversprechende Generalisierungsfähigkeit unseres Frameworks. Der gesamte Code, die Daten und Modelle werden veröffentlicht, um zukünftige Forschung in der generativen physikalischen KI zu fördern.
English
3D modeling is moving from virtual to physical. Existing 3D generation
primarily emphasizes geometries and textures while neglecting physical-grounded
modeling. Consequently, despite the rapid development of 3D generative models,
the synthesized 3D assets often overlook rich and important physical
properties, hampering their real-world application in physical domains like
simulation and embodied AI. As an initial attempt to address this challenge, we
propose PhysX, an end-to-end paradigm for physical-grounded 3D asset
generation. 1) To bridge the critical gap in physics-annotated 3D datasets, we
present PhysXNet - the first physics-grounded 3D dataset systematically
annotated across five foundational dimensions: absolute scale, material,
affordance, kinematics, and function description. In particular, we devise a
scalable human-in-the-loop annotation pipeline based on vision-language models,
which enables efficient creation of physics-first assets from raw 3D assets.2)
Furthermore, we propose PhysXGen, a feed-forward framework for
physics-grounded image-to-3D asset generation, injecting physical knowledge
into the pre-trained 3D structural space. Specifically, PhysXGen employs a
dual-branch architecture to explicitly model the latent correlations between 3D
structures and physical properties, thereby producing 3D assets with plausible
physical predictions while preserving the native geometry quality. Extensive
experiments validate the superior performance and promising generalization
capability of our framework. All the code, data, and models will be released to
facilitate future research in generative physical AI.