ChatPaper.aiChatPaper

Pixie: Apprendimento Supervisionato Rapido e Generalizzabile della Fisica 3D da Pixel

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
Autori: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

Abstract

Inferire le proprietà fisiche di scene 3D a partire da informazioni visive è un compito cruciale ma impegnativo per la creazione di mondi virtuali interattivi e realistici. Mentre gli esseri umani comprendono intuitivamente caratteristiche dei materiali come elasticità o rigidità, i metodi esistenti spesso si basano su un'ottimizzazione lenta e specifica per ogni scena, limitandone la generalizzabilità e l'applicabilità. Per affrontare questo problema, introduciamo PIXIE, un metodo innovativo che addestra una rete neurale generalizzabile a prevedere le proprietà fisiche in più scene a partire da caratteristiche visive 3D, utilizzando esclusivamente perdite supervisionate. Una volta addestrata, la nostra rete feed-forward può eseguire un'inferenza rapida di campi di materiali plausibili, che, accoppiati con una rappresentazione statica della scena appresa come lo Gaussian Splatting, abilita simulazioni fisiche realistiche sotto forze esterne. Per facilitare questa ricerca, abbiamo anche raccolto PIXIEVERSE, uno dei più grandi dataset noti di asset 3D accoppiati con annotazioni di materiali fisici. Valutazioni estensive dimostrano che PIXIE è circa 1,46-4,39 volte migliore e ordini di grandezza più veloce rispetto ai metodi di ottimizzazione al momento del test. Sfruttando caratteristiche visive pre-addestrate come CLIP, il nostro metodo può anche generalizzare in modo zero-shot a scene del mondo reale nonostante sia stato addestrato esclusivamente su dati sintetici. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF362August 27, 2025