SemanticMoments : Similarité de mouvement sans entraînement via les caractéristiques du troisième moment
SemanticMoments: Training-Free Motion Similarity via Third Moment Features
February 9, 2026
papers.authors: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI
papers.abstract
La récupération de vidéos basée sur le mouvement sémantique est un problème fondamental qui reste non résolu. Les approches existantes de représentation vidéo reposent excessivement sur l'apparence statique et le contexte scénique plutôt que sur la dynamique du mouvement, un biais hérité de leurs données d'entraînement et de leurs objectifs. À l'inverse, les entrées traditionnelles centrées sur le mouvement, comme le flux optique, manquent de fondement sémantique nécessaire pour comprendre le mouvement de haut niveau. Pour démontrer ce biais inhérent, nous présentons les benchmarks SimMotion, combinant des données synthétiques contrôlées avec un nouveau jeu de données réel annoté manuellement. Nous montrons que les modèles existants obtiennent de mauvaises performances sur ces benchmarks, échouant souvent à dissocier le mouvement de l'apparence. Pour combler cette lacune, nous proposons SemanticMoments, une méthode simple, sans entraînement, qui calcule des statistiques temporelles (spécifiquement, des moments d'ordre supérieur) sur les caractéristiques issues de modèles sémantiques pré-entraînés. Sur l'ensemble de nos benchmarks, SemanticMoments surpasse systématiquement les méthodes existantes basées sur RVB, le flux optique et la supervision par texte. Cela démontre que les statistiques temporelles dans un espace de caractéristiques sémantiques fournissent une base évolutive et perceptuellement fondée pour la compréhension vidéo centrée sur le mouvement.
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.