ChatPaper.aiChatPaper

Pixie: Snelle en generaliseerbare supervised learning van 3D-fysica vanuit pixels

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
Auteurs: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

Samenvatting

Het afleiden van de fysieke eigenschappen van 3D-scènes uit visuele informatie is een cruciaal maar uitdagend probleem voor het creëren van interactieve en realistische virtuele werelden. Terwijl mensen intuïtief materiaaleigenschappen zoals elasticiteit of stijfheid begrijpen, vertrouwen bestaande methoden vaak op trage, per-scène optimalisatie, wat hun generaliseerbaarheid en toepasbaarheid beperkt. Om dit probleem aan te pakken, introduceren we PIXIE, een nieuwe methode die een generaliseerbaar neuraal netwerk traint om fysieke eigenschappen over meerdere scènes te voorspellen vanuit 3D-visuele kenmerken, uitsluitend gebruikmakend van gesuperviseerde verliesfuncties. Eenmaal getraind, kan ons feed-forward netwerk snel plausibele materiaalvelden afleiden, wat, in combinatie met een geleerde statische scène-representatie zoals Gaussian Splatting, realistische fysica-simulatie onder externe krachten mogelijk maakt. Om dit onderzoek te faciliteren, hebben we ook PIXIEVERSE verzameld, een van de grootste bekende datasets van gepaarde 3D-assets en fysieke materiaalannotaties. Uitgebreide evaluaties tonen aan dat PIXIE ongeveer 1,46-4,39x beter en ordes van grootte sneller is dan methoden die tijdens de testtijd optimaliseren. Door gebruik te maken van voorgetrainde visuele kenmerken zoals CLIP, kan onze methode ook zero-shot generaliseren naar real-world scènes, ondanks dat deze alleen op synthetische data is getraind. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF362August 27, 2025