Pixie : Apprentissage supervisé rapide et généralisable de la physique 3D à partir de pixels
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
August 20, 2025
papers.authors: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI
papers.abstract
Déduire les propriétés physiques de scènes 3D à partir d'informations visuelles est une tâche cruciale mais complexe pour créer des mondes virtuels interactifs et réalistes. Alors que les humains perçoivent intuitivement des caractéristiques matérielles telles que l'élasticité ou la rigidité, les méthodes existantes reposent souvent sur une optimisation lente et spécifique à chaque scène, limitant ainsi leur généralisabilité et leur applicabilité. Pour résoudre ce problème, nous présentons PIXIE, une méthode novatrice qui entraîne un réseau neuronal généralisable à prédire les propriétés physiques à travers plusieurs scènes à partir de caractéristiques visuelles 3D, en utilisant uniquement des pertes supervisées. Une fois entraîné, notre réseau feed-forward peut effectuer une inférence rapide de champs matériels plausibles, qui, couplés à une représentation statique apprise de la scène comme le Gaussian Splatting, permet une simulation physique réaliste sous l'effet de forces externes. Pour faciliter cette recherche, nous avons également collecté PIXIEVERSE, l'un des plus grands ensembles de données connus de ressources 3D appariées avec des annotations de matériaux physiques. Des évaluations approfondies démontrent que PIXIE est environ 1,46 à 4,39 fois plus performant et plusieurs ordres de grandeur plus rapide que les méthodes d'optimisation au moment du test. En exploitant des caractéristiques visuelles pré-entraînées comme CLIP, notre méthode peut également généraliser en zero-shot à des scènes du monde réel, bien qu'elle n'ait été entraînée que sur des données synthétiques. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a
critical yet challenging task for creating interactive and realistic virtual
worlds. While humans intuitively grasp material characteristics such as
elasticity or stiffness, existing methods often rely on slow, per-scene
optimization, limiting their generalizability and application. To address this
problem, we introduce PIXIE, a novel method that trains a generalizable neural
network to predict physical properties across multiple scenes from 3D visual
features purely using supervised losses. Once trained, our feed-forward network
can perform fast inference of plausible material fields, which coupled with a
learned static scene representation like Gaussian Splatting enables realistic
physics simulation under external forces. To facilitate this research, we also
collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and
physic material annotations. Extensive evaluations demonstrate that PIXIE is
about 1.46-4.39x better and orders of magnitude faster than test-time
optimization methods. By leveraging pretrained visual features like CLIP, our
method can also zero-shot generalize to real-world scenes despite only ever
been trained on synthetic data. https://pixie-3d.github.io/