PhysX: Generazione di Asset 3D Basati sulla Fisica
PhysX: Physical-Grounded 3D Asset Generation
July 16, 2025
Autori: Ziang Cao, Zhaoxi Chen, Linag Pan, Ziwei Liu
cs.AI
Abstract
La modellazione 3D si sta spostando dal virtuale al fisico. Le attuali tecniche di generazione 3D si concentrano principalmente su geometrie e texture, trascurando la modellazione basata su principi fisici. Di conseguenza, nonostante il rapido sviluppo dei modelli generativi 3D, gli asset 3D sintetizzati spesso ignorano proprietà fisiche ricche e importanti, limitando la loro applicazione nel mondo reale in ambiti come la simulazione e l'AI incarnata. Come primo tentativo di affrontare questa sfida, proponiamo PhysX, un paradigma end-to-end per la generazione di asset 3D basati su principi fisici. 1) Per colmare il divario critico nei dataset 3D annotati con informazioni fisiche, presentiamo PhysXNet, il primo dataset 3D basato su principi fisici, annotato sistematicamente lungo cinque dimensioni fondamentali: scala assoluta, materiale, affordance, cinematica e descrizione funzionale. In particolare, abbiamo ideato una pipeline di annotazione scalabile basata su modelli visione-linguaggio con intervento umano, che consente la creazione efficiente di asset con priorità fisica a partire da asset 3D grezzi. 2) Inoltre, proponiamo PhysXGen, un framework feed-forward per la generazione di asset 3D basati su principi fisici a partire da immagini, che integra conoscenze fisiche nello spazio strutturale 3D pre-addestrato. Nello specifico, PhysXGen utilizza un'architettura a doppio ramo per modellare esplicitamente le correlazioni latenti tra strutture 3D e proprietà fisiche, producendo così asset 3D con previsioni fisiche plausibili pur mantenendo la qualità geometrica originale. Esperimenti estensivi convalidano le prestazioni superiori e la promettente capacità di generalizzazione del nostro framework. Tutto il codice, i dati e i modelli saranno rilasciati per facilitare future ricerche nell'ambito dell'AI generativa basata su principi fisici.
English
3D modeling is moving from virtual to physical. Existing 3D generation
primarily emphasizes geometries and textures while neglecting physical-grounded
modeling. Consequently, despite the rapid development of 3D generative models,
the synthesized 3D assets often overlook rich and important physical
properties, hampering their real-world application in physical domains like
simulation and embodied AI. As an initial attempt to address this challenge, we
propose PhysX, an end-to-end paradigm for physical-grounded 3D asset
generation. 1) To bridge the critical gap in physics-annotated 3D datasets, we
present PhysXNet - the first physics-grounded 3D dataset systematically
annotated across five foundational dimensions: absolute scale, material,
affordance, kinematics, and function description. In particular, we devise a
scalable human-in-the-loop annotation pipeline based on vision-language models,
which enables efficient creation of physics-first assets from raw 3D assets.2)
Furthermore, we propose PhysXGen, a feed-forward framework for
physics-grounded image-to-3D asset generation, injecting physical knowledge
into the pre-trained 3D structural space. Specifically, PhysXGen employs a
dual-branch architecture to explicitly model the latent correlations between 3D
structures and physical properties, thereby producing 3D assets with plausible
physical predictions while preserving the native geometry quality. Extensive
experiments validate the superior performance and promising generalization
capability of our framework. All the code, data, and models will be released to
facilitate future research in generative physical AI.