ChatPaper.aiChatPaper

セマンティックモーメンツ:三次モーメント特徴量によるトレーニング不要なモーション類似性評価

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

February 9, 2026
著者: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI

要旨

意味論的運動に基づく映像検索は、基本的でありながら未解決の問題である。既存の映像表現手法は、学習データと目的から継承されたバイアスにより、運動ダイナミクスよりも静的外観やシーン文脈に過度に依存している。逆に、光フローなどの従来の運動中心の入力は、高次元の運動を理解するために必要な意味的基盤を欠いている。この内在的バイアスを実証するため、制御された合成データと新たに人手で注釈付けされた実世界データセットを組み合わせたSimMotionベンチマークを導入する。既存モデルがこれらのベンチマークで著しく低い性能を示し、外観から運動を分離することにしばしば失敗することを明らかにする。この課題を解決するため、事前学習済み意味モデルからの特徴量に対して時間統計量(特に高次モーメント)を計算する、簡潔で学習不要な手法SemanticMomentsを提案する。我々のベンチマーク全体で、SemanticMomentsは既存のRGB、フロー、テキスト教師付き手法を一貫して上回る。これは、意味特徴空間における時間統計量が、運動中心の映像理解のためのスケーラブルで知覚的に基礎付けられた基盤を提供することを実証している。
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.
PDF182February 17, 2026