Pixie: Schnelles und verallgemeinerbares überwachtes Lernen von 3D-Physik aus Pixeln
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
August 20, 2025
papers.authors: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI
papers.abstract
Das Erschließen der physikalischen Eigenschaften von 3D-Szenen aus visuellen Informationen ist eine entscheidende, aber herausfordernde Aufgabe für die Erstellung interaktiver und realistischer virtueller Welten. Während Menschen Materialeigenschaften wie Elastizität oder Steifigkeit intuitiv erfassen, verlassen sich bestehende Methoden oft auf langsame, szenenspezifische Optimierungen, was ihre Generalisierbarkeit und Anwendbarkeit einschränkt. Um dieses Problem zu lösen, stellen wir PIXIE vor, eine neuartige Methode, die ein generalisierbares neuronales Netzwerk trainiert, um physikalische Eigenschaften über mehrere Szenen hinweg ausschließlich aus 3D-visuellen Merkmalen unter Verwendung von überwachten Verlustfunktionen vorherzusagen. Einmal trainiert, kann unser Feedforward-Netzwerk schnelle Inferenzen plausibler Materialfelder durchführen, die in Kombination mit einer gelernten statischen Szenendarstellung wie Gaussian Splatting realistische Physiksimulationen unter externen Kräften ermöglichen. Um diese Forschung zu unterstützen, haben wir auch PIXIEVERSE gesammelt, einen der größten bekannten Datensätze von gepaarten 3D-Assets und physikalischen Materialannotationen. Umfangreiche Auswertungen zeigen, dass PIXIE etwa 1,46-4,39x besser und um Größenordnungen schneller ist als Methoden zur Optimierung zur Testzeit. Durch die Nutzung vortrainierter visueller Merkmale wie CLIP kann unsere Methode auch null-Shot-Generalisierungen auf reale Szenen durchführen, obwohl sie ausschließlich auf synthetischen Daten trainiert wurde. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a
critical yet challenging task for creating interactive and realistic virtual
worlds. While humans intuitively grasp material characteristics such as
elasticity or stiffness, existing methods often rely on slow, per-scene
optimization, limiting their generalizability and application. To address this
problem, we introduce PIXIE, a novel method that trains a generalizable neural
network to predict physical properties across multiple scenes from 3D visual
features purely using supervised losses. Once trained, our feed-forward network
can perform fast inference of plausible material fields, which coupled with a
learned static scene representation like Gaussian Splatting enables realistic
physics simulation under external forces. To facilitate this research, we also
collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and
physic material annotations. Extensive evaluations demonstrate that PIXIE is
about 1.46-4.39x better and orders of magnitude faster than test-time
optimization methods. By leveraging pretrained visual features like CLIP, our
method can also zero-shot generalize to real-world scenes despite only ever
been trained on synthetic data. https://pixie-3d.github.io/