Pixie: Apprendimento Supervisionato Rapido e Generalizzabile della Fisica 3D da Pixel
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
August 20, 2025
Autori: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI
Abstract
Inferire le proprietà fisiche di scene 3D a partire da informazioni visive è un compito cruciale ma impegnativo per la creazione di mondi virtuali interattivi e realistici. Mentre gli esseri umani comprendono intuitivamente caratteristiche dei materiali come elasticità o rigidità, i metodi esistenti spesso si basano su un'ottimizzazione lenta e specifica per ogni scena, limitandone la generalizzabilità e l'applicabilità. Per affrontare questo problema, introduciamo PIXIE, un metodo innovativo che addestra una rete neurale generalizzabile a prevedere le proprietà fisiche in più scene a partire da caratteristiche visive 3D, utilizzando esclusivamente perdite supervisionate. Una volta addestrata, la nostra rete feed-forward può eseguire un'inferenza rapida di campi di materiali plausibili, che, accoppiati con una rappresentazione statica della scena appresa come lo Gaussian Splatting, abilita simulazioni fisiche realistiche sotto forze esterne. Per facilitare questa ricerca, abbiamo anche raccolto PIXIEVERSE, uno dei più grandi dataset noti di asset 3D accoppiati con annotazioni di materiali fisici. Valutazioni estensive dimostrano che PIXIE è circa 1,46-4,39 volte migliore e ordini di grandezza più veloce rispetto ai metodi di ottimizzazione al momento del test. Sfruttando caratteristiche visive pre-addestrate come CLIP, il nostro metodo può anche generalizzare in modo zero-shot a scene del mondo reale nonostante sia stato addestrato esclusivamente su dati sintetici. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a
critical yet challenging task for creating interactive and realistic virtual
worlds. While humans intuitively grasp material characteristics such as
elasticity or stiffness, existing methods often rely on slow, per-scene
optimization, limiting their generalizability and application. To address this
problem, we introduce PIXIE, a novel method that trains a generalizable neural
network to predict physical properties across multiple scenes from 3D visual
features purely using supervised losses. Once trained, our feed-forward network
can perform fast inference of plausible material fields, which coupled with a
learned static scene representation like Gaussian Splatting enables realistic
physics simulation under external forces. To facilitate this research, we also
collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and
physic material annotations. Extensive evaluations demonstrate that PIXIE is
about 1.46-4.39x better and orders of magnitude faster than test-time
optimization methods. By leveraging pretrained visual features like CLIP, our
method can also zero-shot generalize to real-world scenes despite only ever
been trained on synthetic data. https://pixie-3d.github.io/