ChatPaper.aiChatPaper

Pixie: Быстрое и обобщаемое обучение с учителем 3D-физики на основе пикселей

Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

August 20, 2025
Авторы: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
cs.AI

Аннотация

Определение физических свойств трехмерных сцен на основе визуальной информации является важной, но сложной задачей для создания интерактивных и реалистичных виртуальных миров. Хотя люди интуитивно понимают такие характеристики материалов, как упругость или жесткость, существующие методы часто полагаются на медленную оптимизацию для каждой сцены, что ограничивает их обобщаемость и применимость. Для решения этой проблемы мы представляем PIXIE — новый метод, который обучает обобщаемую нейронную сеть для предсказания физических свойств в нескольких сценах на основе трехмерных визуальных признаков, используя исключительно контролируемые функции потерь. После обучения наша прямая сеть может быстро выводить правдоподобные поля материалов, что в сочетании с изученным статическим представлением сцены, таким как Gaussian Splatting, позволяет реалистично моделировать физику под воздействием внешних сил. Для поддержки этого исследования мы также собрали PIXIEVERSE — один из крупнейших известных наборов данных, содержащих парные трехмерные объекты и аннотации физических свойств материалов. Обширные оценки показывают, что PIXIE примерно в 1.46–4.39 раза лучше и на порядки быстрее, чем методы оптимизации на этапе тестирования. Благодаря использованию предобученных визуальных признаков, таких как CLIP, наш метод также может обобщать на реальные сцены в режиме zero-shot, несмотря на то, что обучался исключительно на синтетических данных. https://pixie-3d.github.io/
English
Inferring the physical properties of 3D scenes from visual information is a critical yet challenging task for creating interactive and realistic virtual worlds. While humans intuitively grasp material characteristics such as elasticity or stiffness, existing methods often rely on slow, per-scene optimization, limiting their generalizability and application. To address this problem, we introduce PIXIE, a novel method that trains a generalizable neural network to predict physical properties across multiple scenes from 3D visual features purely using supervised losses. Once trained, our feed-forward network can perform fast inference of plausible material fields, which coupled with a learned static scene representation like Gaussian Splatting enables realistic physics simulation under external forces. To facilitate this research, we also collected PIXIEVERSE, one of the largest known datasets of paired 3D assets and physic material annotations. Extensive evaluations demonstrate that PIXIE is about 1.46-4.39x better and orders of magnitude faster than test-time optimization methods. By leveraging pretrained visual features like CLIP, our method can also zero-shot generalize to real-world scenes despite only ever been trained on synthetic data. https://pixie-3d.github.io/
PDF91August 27, 2025