PhysForge: Generación de Activos 3D con Base Física para Mundos Virtuales Interactivos
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
May 6, 2026
Autores: Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu
cs.AI
Resumen
La síntesis de activos 3D con base física constituye un cuello de botella crítico para los mundos virtuales interactivos y la IA encarnada. Los métodos existentes se centran predominantemente en la geometría estática, pasando por alto las propiedades funcionales esenciales para la interacción. Proponemos que la generación de activos interactivos debe estar fundamentada en una lógica funcional y una física jerárquica. Para salvar esta brecha, presentamos PhysForge, un marco de trabajo desacoplado de dos etapas respaldado por PhysDB, un conjunto de datos a gran escala de 150.000 activos con anotaciones físicas de cuatro niveles. Primero, un Modelo de Lenguaje Visual (VLM) actúa como un "arquitecto físico" para planificar un "Planos Físicos Jerárquicos" que define las restricciones de material, funcionales y cinemáticas. En segundo lugar, un modelo de difusión con base física materializa estos planos sintetizando una geometría de alta fidelidad junto con parámetros cinemáticos precisos mediante un novedoso mecanismo de Inyección de KineVóxeles (KVI). Los experimentos demuestran que PhysForge produce activos funcionalmente plausibles y listos para simulación, proporcionando un motor de datos robusto para contenido 3D interactivo y agentes encarnados.
English
Synthesizing physics-grounded 3D assets is a critical bottleneck for interactive virtual worlds and embodied AI. Existing methods predominantly focus on static geometry, overlooking the functional properties essential for interaction. We propose that interactive asset generation must be rooted in functional logic and hierarchical physics. To bridge this gap, we introduce PhysForge, a decoupled two-stage framework supported by PhysDB, a large-scale dataset of 150,000 assets with four-tier physical annotations. First, a VLM acts as a "physical architect" to plan a "Hierarchical Physical Blueprint" defining material, functional, and kinematic constraints. Second, a physics-grounded diffusion model realizes this blueprint by synthesizing high-fidelity geometry alongside precise kinematic parameters via a novel KineVoxel Injection (KVI) mechanism. Experiments demonstrate that PhysForge produces functionally plausible, simulation-ready assets, providing a robust data engine for interactive 3D content and embodied agents.