ChatPaper.aiChatPaper

Pixie: Aprendizado Supervisionado Rápido e Generalizável de Física 3D a partir de Pixels

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
Autores: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

Resumo

Inferir as propriedades físicas de cenas 3D a partir de informações visuais é uma tarefa crucial, porém desafiadora, para a criação de mundos virtuais interativos e realistas. Embora os humanos compreendam intuitivamente características dos materiais, como elasticidade ou rigidez, os métodos existentes frequentemente dependem de otimizações lentas e específicas por cena, limitando sua generalização e aplicação. Para resolver esse problema, introduzimos o PIXIE, um método inovador que treina uma rede neural generalizável para prever propriedades físicas em múltiplas cenas a partir de características visuais 3D, utilizando exclusivamente perdas supervisionadas. Uma vez treinada, nossa rede de propagação direta pode realizar inferências rápidas de campos de materiais plausíveis, que, combinados com uma representação estática de cena aprendida, como o Gaussian Splatting, permitem simulações físicas realistas sob forças externas. Para facilitar essa pesquisa, também coletamos o PIXIEVERSE, um dos maiores conjuntos de dados conhecidos de ativos 3D emparelhados com anotações de materiais físicos. Avaliações extensivas demonstram que o PIXIE é cerca de 1,46 a 4,39 vezes melhor e ordens de magnitude mais rápido do que métodos de otimização em tempo de teste. Ao aproveitar características visuais pré-treinadas, como o CLIP, nosso método também pode generalizar de forma zero-shot para cenas do mundo real, apesar de ter sido treinado apenas com dados sintéticos. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF352August 27, 2025