もしも:疎な相互作用を通じた運動の理解
What If : Understanding Motion Through Sparse Interactions
October 14, 2025
著者: Stefan Andreas Baumann, Nick Stracke, Timy Phan, Björn Ommer
cs.AI
要旨
物理シーンのダイナミクスを理解するには、特に局所的な相互作用の結果として生じる多様な変化の可能性について推論することが必要です。本論文では、Flow Poke Transformer(FPT)という新しいフレームワークを提案します。これは、「ポーク」と呼ばれる疎な相互作用を条件として、局所的な運動の分布を直接予測するものです。従来の手法では通常、シーンダイナミクスの単一の実現を密にサンプリングすることしかできませんでしたが、FPTは、多様なシーン運動、物理的相互作用への依存性、およびシーンダイナミクスの内在的な不確実性を解釈可能で直接アクセス可能な形で表現します。また、我々のモデルをいくつかの下流タスクで評価し、従来の手法との比較を可能にするとともに、我々のアプローチの柔軟性を強調します。密な顔の運動生成において、我々の汎用的な事前学習モデルは、専門的なベースラインを上回ります。FPTは、合成データセットのような強く分布外のタスクでも微調整が可能であり、関節物体の運動推定において、ドメイン内の手法を大幅に改善することができます。さらに、明示的な運動分布を直接予測することで、ポークからの可動部分のセグメンテーションのようなタスクにおいても競争力のある性能を達成し、FPTの汎用性をさらに実証しています。コードとモデルはhttps://compvis.github.io/flow-poke-transformerで公開されています。
English
Understanding the dynamics of a physical scene involves reasoning about the
diverse ways it can potentially change, especially as a result of local
interactions. We present the Flow Poke Transformer (FPT), a novel framework for
directly predicting the distribution of local motion, conditioned on sparse
interactions termed "pokes". Unlike traditional methods that typically only
enable dense sampling of a single realization of scene dynamics, FPT provides
an interpretable directly accessible representation of multi-modal scene
motion, its dependency on physical interactions and the inherent uncertainties
of scene dynamics. We also evaluate our model on several downstream tasks to
enable comparisons with prior methods and highlight the flexibility of our
approach. On dense face motion generation, our generic pre-trained model
surpasses specialized baselines. FPT can be fine-tuned in strongly
out-of-distribution tasks such as synthetic datasets to enable significant
improvements over in-domain methods in articulated object motion estimation.
Additionally, predicting explicit motion distributions directly enables our
method to achieve competitive performance on tasks like moving part
segmentation from pokes which further demonstrates the versatility of our FPT.
Code and models are publicly available at
https://compvis.github.io/flow-poke-transformer.