PhysForge: Генерация физически обоснованных 3D-ассетов для интерактивных виртуальных миров
PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
May 6, 2026
Авторы: Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu
cs.AI
Аннотация
Синтез физически обоснованных 3D-ассетов является ключевым узким местом для создания интерактивных виртуальных миров и воплощенного ИИ. Существующие методы в основном сосредоточены на статической геометрии, игнорируя функциональные свойства, необходимые для взаимодействия. Мы предполагаем, что генерация интерактивных ассетов должна основываться на функциональной логике и иерархической физике. Для преодоления этого разрыва мы представляем PhysForge — развязанную двухэтапную структуру, поддерживаемую PhysDB, масштабным набором данных из 150 000 ассетов с четырехуровневыми физическими аннотациями. Сначала VLM выступает в роли «физического архитектора», планируя «Иерархический физический план», который определяет материальные, функциональные и кинематические ограничения. Затем физически обоснованная диффузионная модель реализует этот план, синтезируя высокодетализированную геометрию вместе с точными кинематическими параметрами с помощью нового механизма KineVoxel Injection (KVI). Эксперименты показывают, что PhysForge создает функционально правдоподобные ассеты, готовые к симуляции, предоставляя надежный механизм генерации данных для интерактивного 3D-контента и воплощенных агентов.
English
Synthesizing physics-grounded 3D assets is a critical bottleneck for interactive virtual worlds and embodied AI. Existing methods predominantly focus on static geometry, overlooking the functional properties essential for interaction. We propose that interactive asset generation must be rooted in functional logic and hierarchical physics. To bridge this gap, we introduce PhysForge, a decoupled two-stage framework supported by PhysDB, a large-scale dataset of 150,000 assets with four-tier physical annotations. First, a VLM acts as a "physical architect" to plan a "Hierarchical Physical Blueprint" defining material, functional, and kinematic constraints. Second, a physics-grounded diffusion model realizes this blueprint by synthesizing high-fidelity geometry alongside precise kinematic parameters via a novel KineVoxel Injection (KVI) mechanism. Experiments demonstrate that PhysForge produces functionally plausible, simulation-ready assets, providing a robust data engine for interactive 3D content and embodied agents.