PhysForge : Génération d'actifs 3D fondés sur la physique pour les mondes virtuels interactifs
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
May 6, 2026
Auteurs: Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu
cs.AI
Résumé
La synthèse d'actifs 3D ancrés dans la physique constitue un goulot d'étranglement majeur pour les mondes virtuels interactifs et l'IA incarnée. Les méthodes existantes se concentrent principalement sur la géométrie statique, négligeant les propriétés fonctionnelles essentielles à l'interaction. Nous proposons que la génération d'actifs interactifs doit être ancrée dans une logique fonctionnelle et une physique hiérarchique. Pour combler cette lacune, nous présentons PhysForge, un framework découplé à deux étapes soutenu par PhysDB, une base de données à grande échelle de 150 000 actifs avec des annotations physiques à quatre niveaux. Premièrement, un VLM agit comme un « architecte physique » pour planifier un « Plan Physique Hiérarchique » définissant les contraintes matérielles, fonctionnelles et cinématiques. Deuxièmement, un modèle de diffusion fondé sur la physique concrétise ce plan en synthétisant une géométrie haute fidélité ainsi que des paramètres cinématiques précis via un nouveau mécanisme d'Injection CinéVoxel (KVI). Les expériences démontrent que PhysForge produit des actifs fonctionnellement plausibles et prêts pour la simulation, offrant un moteur de données robuste pour le contenu 3D interactif et les agents incarnés.
English
Synthesizing physics-grounded 3D assets is a critical bottleneck for interactive virtual worlds and embodied AI. Existing methods predominantly focus on static geometry, overlooking the functional properties essential for interaction. We propose that interactive asset generation must be rooted in functional logic and hierarchical physics. To bridge this gap, we introduce PhysForge, a decoupled two-stage framework supported by PhysDB, a large-scale dataset of 150,000 assets with four-tier physical annotations. First, a VLM acts as a "physical architect" to plan a "Hierarchical Physical Blueprint" defining material, functional, and kinematic constraints. Second, a physics-grounded diffusion model realizes this blueprint by synthesizing high-fidelity geometry alongside precise kinematic parameters via a novel KineVoxel Injection (KVI) mechanism. Experiments demonstrate that PhysForge produces functionally plausible, simulation-ready assets, providing a robust data engine for interactive 3D content and embodied agents.