PhysiFormer: обучение симуляции механики в мировом пространстве

Аннотация

Мы представляем PhysiFormer — диффузионный трансформер для физически правдоподобного движения 3D-объектов. В отличие от видеомировых моделей, работающих в зависящем от ракурса пиксельном пространстве, PhysiFormer представляет объекты в виде 3D-сеток, выраженных в мировых координатах. Получая на вход начальные положения и скорости вершин, а также тип материала объекта (жёсткий или упругий), модель генерирует будущие траектории вершин. В то время как смежные нейросетевые физические подходы опираются на ad-hoc латентные пространства или явно учитывают жёсткость и причинность, PhysiFormer демонстрирует, что отличные результаты можно получить без подобных индуктивных смещений, представив предсказание траекторий вершин как единый процесс диффузии с удалением шума непосредственно в мировых координатах. Вероятностная формулировка учитывает неопределённость в изучаемой динамике, позволяя получать различные правдоподобные варианты будущего на основе начальных условий, что делает данную архитектуру потенциально полезной для приложений с ненаблюдаемой неопределённостью. Модель использует внимание, факторизованное по времени, пространству и объектам для эффективности, что обеспечивает перестановочно-инвариантное многобъектное рассуждение без необходимости явного кодирования объектов. Обученный на более чем 100 000 симулированных траекториях, PhysiFormer генерирует динамику жёстких и упругих тел и обобщается на смешанные материалы, невиданные ранее геометрии реального мира и большее количество объектов. Он значительно превосходит авторегрессионные базовые модели по точности траекторий, сохранению жёсткости и сохранению импульса на основе физической согласованности. Наши результаты позиционируют диффузию в координатном пространстве как многообещающий шаг к инвариантному к ракурсу моделированию мира с учётом геометрии для робототехники, графики и физического дизайна. Визуализации, код и модели доступны по адресу https://yimingc9.github.io/physiformer.

English

We present PhysiFormer, a diffusion transformer for physically-plausible 3D object motion. Unlike video world models that operate in view-dependent pixel space, PhysiFormer represents objects as 3D meshes expressed in world coordinates. Given the initial vertex positions and velocities, as well as object material type, rigid or elastic, the model samples future vertex trajectories. While related neural physics approaches build on ad-hoc latent spaces or explicitly enforce rigidity and causality, PhysiFormer shows that excellent results can be obtained without any such inductive biases, by casting vertex trajectory prediction as a single denoising diffusion process directly in world coordinates. The probabilistic formulation captures uncertainty in the learned dynamics, enabling diverse plausible futures from initial conditions, making this framework potentially useful for applications with unobserved uncertainty. The model features attention factorised over time, space, and objects for efficiency, enabling permutation-invariant multi-object reasoning without needing explicit object encoding. Trained on over 100k simulated trajectories, PhysiFormer generates rigid and elastic mechanics, and generalises to mixed-material settings, unseen real-world geometries, and larger object counts. It substantially outperforms autoregressive baselines in trajectory accuracy, rigidity preservation, and momentum-based physical consistency. Our results position coordinate-space diffusion as a promising step toward view-invariant, geometry-aware world modelling for robotics, graphics, and physical design. Visualisations, code, and models are available at https://yimingc9.github.io/physiformer.