What If: 희소 상호작용을 통한 동작 이해
What If : Understanding Motion Through Sparse Interactions
October 14, 2025
저자: Stefan Andreas Baumann, Nick Stracke, Timy Phan, Björn Ommer
cs.AI
초록
물리적 장면의 동역학을 이해하는 것은, 특히 국소적 상호작용의 결과로서 발생할 수 있는 다양한 변화 방식에 대해 추론하는 것을 포함합니다. 우리는 "poke"라고 불리는 희소한 상호작용을 조건으로 하여 국소적 움직임의 분포를 직접 예측하는 새로운 프레임워크인 Flow Poke Transformer(FPT)를 제안합니다. 전통적인 방법들이 일반적으로 장면 동역학의 단일 실현을 밀집하게 샘플링하는 데 그치는 반면, FPT는 다중 모드 장면 움직임, 물리적 상호작용에 대한 의존성, 그리고 장면 동역학의 내재적 불확실성에 대한 해석 가능하고 직접 접근 가능한 표현을 제공합니다. 우리는 또한 여러 하위 작업에서 우리의 모델을 평가하여 기존 방법과의 비교를 가능하게 하고 우리 접근법의 유연성을 강조합니다. 밀집한 얼굴 움직임 생성에서, 우리의 일반적인 사전 훈련된 모델은 특화된 베이스라인을 능가합니다. FPT는 합성 데이터셋과 같은 강력한 분포 외 작업에서 미세 조정될 수 있어 관절형 물체 움직임 추정에서 도메인 내 방법에 비해 상당한 개선을 가능하게 합니다. 또한, 명시적 움직임 분포를 직접 예측하는 것은 우리의 방법이 poke로부터 움직이는 부분 분할과 같은 작업에서 경쟁력 있는 성능을 달성할 수 있게 하여 FPT의 다용성을 더욱 입증합니다. 코드와 모델은 https://compvis.github.io/flow-poke-transformer에서 공개적으로 이용 가능합니다.
English
Understanding the dynamics of a physical scene involves reasoning about the
diverse ways it can potentially change, especially as a result of local
interactions. We present the Flow Poke Transformer (FPT), a novel framework for
directly predicting the distribution of local motion, conditioned on sparse
interactions termed "pokes". Unlike traditional methods that typically only
enable dense sampling of a single realization of scene dynamics, FPT provides
an interpretable directly accessible representation of multi-modal scene
motion, its dependency on physical interactions and the inherent uncertainties
of scene dynamics. We also evaluate our model on several downstream tasks to
enable comparisons with prior methods and highlight the flexibility of our
approach. On dense face motion generation, our generic pre-trained model
surpasses specialized baselines. FPT can be fine-tuned in strongly
out-of-distribution tasks such as synthetic datasets to enable significant
improvements over in-domain methods in articulated object motion estimation.
Additionally, predicting explicit motion distributions directly enables our
method to achieve competitive performance on tasks like moving part
segmentation from pokes which further demonstrates the versatility of our FPT.
Code and models are publicly available at
https://compvis.github.io/flow-poke-transformer.