PhysForge: Generierung physikalisch fundierter 3D-Assets für interaktive virtuelle Welten
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
May 6, 2026
Autoren: Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu
cs.AI
Zusammenfassung
Die Synthese physikalisch fundierter 3D-Assets stellt einen kritischen Engpass für interaktive virtuelle Welten und verkörperte KI-Systeme dar. Bestehende Methoden konzentrieren sich überwiegend auf statische Geometrie und vernachlässigen die für Interaktionen essenziellen funktionalen Eigenschaften. Wir postulieren, dass die Generierung interaktiver Assets auf funktionaler Logik und hierarchischer Physik basieren muss. Um diese Lücke zu schließen, stellen wir PhysForge vor, ein entkoppeltes Zwei-Stufen-Framework, das durch PhysDB unterstützt wird – einen umfangreichen Datensatz mit 150.000 Assets und vierstufigen physikalischen Annotationen. Zunächst agiert ein VLM als „physikalischer Architekt“, um einen „Hierarchischen Physikalischen Bauplan“ zu entwerfen, der Material-, Funktions- und kinematische Randbedingungen definiert. Anschließend realisiert ein physikalisch fundiertes Diffusionsmodell diesen Bauplan durch Synthese hochauflösender Geometrie zusammen mit präzisen kinematischen Parametern mittels eines neuartigen KineVoxel-Injection (KVI)-Mechanismus. Experimente belegen, dass PhysForge funktional plausible, simulationsfertige Assets erzeugt und damit eine robuste Daten-Engine für interaktive 3D-Inhalte und verkörperte Agenten bereitstellt.
English
Synthesizing physics-grounded 3D assets is a critical bottleneck for interactive virtual worlds and embodied AI. Existing methods predominantly focus on static geometry, overlooking the functional properties essential for interaction. We propose that interactive asset generation must be rooted in functional logic and hierarchical physics. To bridge this gap, we introduce PhysForge, a decoupled two-stage framework supported by PhysDB, a large-scale dataset of 150,000 assets with four-tier physical annotations. First, a VLM acts as a "physical architect" to plan a "Hierarchical Physical Blueprint" defining material, functional, and kinematic constraints. Second, a physics-grounded diffusion model realizes this blueprint by synthesizing high-fidelity geometry alongside precise kinematic parameters via a novel KineVoxel Injection (KVI) mechanism. Experiments demonstrate that PhysForge produces functionally plausible, simulation-ready assets, providing a robust data engine for interactive 3D content and embodied agents.