Pixie: Aprendizado Supervisionado Rápido e Generalizável de Física 3D a partir de Pixels
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
August 20, 2025
Autores: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI
Resumo
Inferir as propriedades físicas de cenas 3D a partir de informações visuais é uma tarefa crucial, porém desafiadora, para a criação de mundos virtuais interativos e realistas. Embora os humanos compreendam intuitivamente características dos materiais, como elasticidade ou rigidez, os métodos existentes frequentemente dependem de otimizações lentas e específicas por cena, limitando sua generalização e aplicação. Para resolver esse problema, introduzimos o PIXIE, um método inovador que treina uma rede neural generalizável para prever propriedades físicas em múltiplas cenas a partir de características visuais 3D, utilizando exclusivamente perdas supervisionadas. Uma vez treinada, nossa rede de propagação direta pode realizar inferências rápidas de campos de materiais plausíveis, que, combinados com uma representação estática de cena aprendida, como o Gaussian Splatting, permitem simulações físicas realistas sob forças externas. Para facilitar essa pesquisa, também coletamos o PIXIEVERSE, um dos maiores conjuntos de dados conhecidos de ativos 3D emparelhados com anotações de materiais físicos. Avaliações extensivas demonstram que o PIXIE é cerca de 1,46 a 4,39 vezes melhor e ordens de magnitude mais rápido do que métodos de otimização em tempo de teste. Ao aproveitar características visuais pré-treinadas, como o CLIP, nosso método também pode generalizar de forma zero-shot para cenas do mundo real, apesar de ter sido treinado apenas com dados sintéticos. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a
critical yet challenging task for creating interactive and realistic virtual
worlds. While humans intuitively grasp material characteristics such as
elasticity or stiffness, existing methods often rely on slow, per-scene
optimization, limiting their generalizability and application. To address this
problem, we introduce PIXIE, a novel method that trains a generalizable neural
network to predict physical properties across multiple scenes from 3D visual
features purely using supervised losses. Once trained, our feed-forward network
can perform fast inference of plausible material fields, which coupled with a
learned static scene representation like Gaussian Splatting enables realistic
physics simulation under external forces. To facilitate this research, we also
collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and
physic material annotations. Extensive evaluations demonstrate that PIXIE is
about 1.46-4.39x better and orders of magnitude faster than test-time
optimization methods. By leveraging pretrained visual features like CLIP, our
method can also zero-shot generalize to real-world scenes despite only ever
been trained on synthetic data. https://pixie-3d.github.io/