ChatPaper.aiChatPaper

Pixie: 픽셀 데이터로부터 3D 물리학을 학습하는 빠르고 일반화 가능한 지도 학습

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
저자: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

초록

시각 정보로부터 3D 장면의 물리적 속성을 추론하는 것은 상호작용적이고 현실적인 가상 세계를 창조하기 위한 중요하면서도 도전적인 과제입니다. 인간은 탄성이나 강성과 같은 재질 특성을 직관적으로 파악하지만, 기존 방법들은 느린 장면별 최적화에 의존하는 경우가 많아 일반화성과 적용 범위가 제한적입니다. 이 문제를 해결하기 위해, 우리는 PIXIE라는 새로운 방법을 제안합니다. PIXIE는 지도 학습 손실만을 사용하여 3D 시각적 특징으로부터 여러 장면에 걸쳐 물리적 속성을 예측하는 일반화 가능한 신경망을 학습합니다. 한 번 학습된 우리의 순전파 네트워크는 그럴듯한 재질 필드를 빠르게 추론할 수 있으며, 이는 Gaussian Splatting과 같은 학습된 정적 장면 표현과 결합되어 외부 힘 하에서 현실적인 물리 시뮬레이션을 가능하게 합니다. 이 연구를 지원하기 위해, 우리는 또한 3D 자산과 물리적 재질 주석이 짝을 이루는 가장 큰 데이터셋 중 하나인 PIXIEVERSE를 수집했습니다. 광범위한 평가 결과, PIXIE는 테스트 시 최적화 방법들보다 약 1.46-4.39배 더 우수하며 수 차원 더 빠른 것으로 나타났습니다. CLIP과 같은 사전 학습된 시각적 특징을 활용함으로써, 우리의 방법은 합성 데이터만으로 학습되었음에도 불구하고 실제 세계 장면으로의 제로샷 일반화가 가능합니다. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF81August 27, 2025