Et si : Comprendre le mouvement à travers des interactions éparses
What If : Understanding Motion Through Sparse Interactions
October 14, 2025
papers.authors: Stefan Andreas Baumann, Nick Stracke, Timy Phan, Björn Ommer
cs.AI
papers.abstract
Comprendre la dynamique d'une scène physique implique de raisonner sur les diverses manières dont elle peut potentiellement évoluer, en particulier à la suite d'interactions locales. Nous présentons le Flow Poke Transformer (FPT), un cadre novateur pour prédire directement la distribution du mouvement local, conditionnée par des interactions éparses appelées « pokes ». Contrairement aux méthodes traditionnelles qui permettent généralement un échantillonnage dense d'une seule réalisation de la dynamique de la scène, le FPT fournit une représentation interprétable et directement accessible du mouvement multimodal de la scène, de sa dépendance aux interactions physiques et des incertitudes inhérentes à la dynamique de la scène. Nous évaluons également notre modèle sur plusieurs tâches en aval pour permettre des comparaisons avec les méthodes antérieures et mettre en évidence la flexibilité de notre approche. Sur la génération dense de mouvements faciaux, notre modèle pré-entraîné générique surpasse les bases de référence spécialisées. Le FPT peut être affiné pour des tâches fortement hors distribution, telles que des ensembles de données synthétiques, permettant des améliorations significatives par rapport aux méthodes intra-domaines dans l'estimation du mouvement d'objets articulés. De plus, la prédiction directe de distributions explicites de mouvement permet à notre méthode d'atteindre des performances compétitives sur des tâches comme la segmentation de parties mobiles à partir de pokes, ce qui démontre davantage la polyvalence de notre FPT. Le code et les modèles sont disponibles publiquement à l'adresse https://compvis.github.io/flow-poke-transformer.
English
Understanding the dynamics of a physical scene involves reasoning about the
diverse ways it can potentially change, especially as a result of local
interactions. We present the Flow Poke Transformer (FPT), a novel framework for
directly predicting the distribution of local motion, conditioned on sparse
interactions termed "pokes". Unlike traditional methods that typically only
enable dense sampling of a single realization of scene dynamics, FPT provides
an interpretable directly accessible representation of multi-modal scene
motion, its dependency on physical interactions and the inherent uncertainties
of scene dynamics. We also evaluate our model on several downstream tasks to
enable comparisons with prior methods and highlight the flexibility of our
approach. On dense face motion generation, our generic pre-trained model
surpasses specialized baselines. FPT can be fine-tuned in strongly
out-of-distribution tasks such as synthetic datasets to enable significant
improvements over in-domain methods in articulated object motion estimation.
Additionally, predicting explicit motion distributions directly enables our
method to achieve competitive performance on tasks like moving part
segmentation from pokes which further demonstrates the versatility of our FPT.
Code and models are publicly available at
https://compvis.github.io/flow-poke-transformer.