ChatPaper.aiChatPaper

Pixie: Aprendizaje supervisado rápido y generalizable de física 3D a partir de píxeles

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
Autores: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

Resumen

Inferir las propiedades físicas de escenas 3D a partir de información visual es una tarea crucial pero desafiante para crear mundos virtuales interactivos y realistas. Mientras que los humanos comprenden intuitivamente características de los materiales como la elasticidad o la rigidez, los métodos existentes suelen depender de una optimización lenta por escena, lo que limita su generalización y aplicación. Para abordar este problema, presentamos PIXIE, un método novedoso que entrena una red neuronal generalizable para predecir propiedades físicas en múltiples escenas a partir de características visuales 3D utilizando únicamente pérdidas supervisadas. Una vez entrenada, nuestra red de avance rápido puede realizar inferencias rápidas de campos de materiales plausibles, lo que, junto con una representación estática de la escena aprendida como Gaussian Splatting, permite simulaciones físicas realistas bajo fuerzas externas. Para facilitar esta investigación, también recopilamos PIXIEVERSE, uno de los conjuntos de datos más grandes conocidos de activos 3D emparejados con anotaciones de materiales físicos. Evaluaciones exhaustivas demuestran que PIXIE es aproximadamente 1.46-4.39 veces mejor y órdenes de magnitud más rápido que los métodos de optimización en tiempo de prueba. Al aprovechar características visuales preentrenadas como CLIP, nuestro método también puede generalizar de manera zero-shot a escenas del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF71August 27, 2025