ChatPaper.aiChatPaper

Pixie : Apprentissage supervisé rapide et généralisable de la physique 3D à partir de pixels

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
papers.authors: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

papers.abstract

Déduire les propriétés physiques de scènes 3D à partir d'informations visuelles est une tâche cruciale mais complexe pour créer des mondes virtuels interactifs et réalistes. Alors que les humains perçoivent intuitivement des caractéristiques matérielles telles que l'élasticité ou la rigidité, les méthodes existantes reposent souvent sur une optimisation lente et spécifique à chaque scène, limitant ainsi leur généralisabilité et leur applicabilité. Pour résoudre ce problème, nous présentons PIXIE, une méthode novatrice qui entraîne un réseau neuronal généralisable à prédire les propriétés physiques à travers plusieurs scènes à partir de caractéristiques visuelles 3D, en utilisant uniquement des pertes supervisées. Une fois entraîné, notre réseau feed-forward peut effectuer une inférence rapide de champs matériels plausibles, qui, couplés à une représentation statique apprise de la scène comme le Gaussian Splatting, permet une simulation physique réaliste sous l'effet de forces externes. Pour faciliter cette recherche, nous avons également collecté PIXIEVERSE, l'un des plus grands ensembles de données connus de ressources 3D appariées avec des annotations de matériaux physiques. Des évaluations approfondies démontrent que PIXIE est environ 1,46 à 4,39 fois plus performant et plusieurs ordres de grandeur plus rapide que les méthodes d'optimisation au moment du test. En exploitant des caractéristiques visuelles pré-entraînées comme CLIP, notre méthode peut également généraliser en zero-shot à des scènes du monde réel, bien qu'elle n'ait été entraînée que sur des données synthétiques. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF91August 27, 2025