Pixie: Aprendizaje supervisado rápido y generalizable de física 3D a partir de píxeles
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
August 20, 2025
Autores: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI
Resumen
Inferir las propiedades físicas de escenas 3D a partir de información visual es una tarea crucial pero desafiante para crear mundos virtuales interactivos y realistas. Mientras que los humanos comprenden intuitivamente características de los materiales como la elasticidad o la rigidez, los métodos existentes suelen depender de una optimización lenta por escena, lo que limita su generalización y aplicación. Para abordar este problema, presentamos PIXIE, un método novedoso que entrena una red neuronal generalizable para predecir propiedades físicas en múltiples escenas a partir de características visuales 3D utilizando únicamente pérdidas supervisadas. Una vez entrenada, nuestra red de avance rápido puede realizar inferencias rápidas de campos de materiales plausibles, lo que, junto con una representación estática de la escena aprendida como Gaussian Splatting, permite simulaciones físicas realistas bajo fuerzas externas. Para facilitar esta investigación, también recopilamos PIXIEVERSE, uno de los conjuntos de datos más grandes conocidos de activos 3D emparejados con anotaciones de materiales físicos. Evaluaciones exhaustivas demuestran que PIXIE es aproximadamente 1.46-4.39 veces mejor y órdenes de magnitud más rápido que los métodos de optimización en tiempo de prueba. Al aprovechar características visuales preentrenadas como CLIP, nuestro método también puede generalizar de manera zero-shot a escenas del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a
critical yet challenging task for creating interactive and realistic virtual
worlds. While humans intuitively grasp material characteristics such as
elasticity or stiffness, existing methods often rely on slow, per-scene
optimization, limiting their generalizability and application. To address this
problem, we introduce PIXIE, a novel method that trains a generalizable neural
network to predict physical properties across multiple scenes from 3D visual
features purely using supervised losses. Once trained, our feed-forward network
can perform fast inference of plausible material fields, which coupled with a
learned static scene representation like Gaussian Splatting enables realistic
physics simulation under external forces. To facilitate this research, we also
collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and
physic material annotations. Extensive evaluations demonstrate that PIXIE is
about 1.46-4.39x better and orders of magnitude faster than test-time
optimization methods. By leveraging pretrained visual features like CLIP, our
method can also zero-shot generalize to real-world scenes despite only ever
been trained on synthetic data. https://pixie-3d.github.io/