시맨틱모먼츠: 3차 모멘트 특징을 이용한 학습 없는 모션 유사성 측정
SemanticMoments: Training-Free Motion Similarity via Third Moment Features
February 9, 2026
저자: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI
초록
의미론적 운동 기반 비디오 검색은 근본적이면서도 아직 해결되지 않은 과제입니다. 기존 비디오 표현 방법은 훈련 데이터와 목표에서 비롯된 편향으로 인해 운동 역학보다는 정적 외관과 장면 맥락에 지나치게 의존합니다. 반면 광학 흐름과 같은 전통적인 운동 중심 입력은 고수준 운동을 이해하는 데 필요한 의미론적 토대가 부족합니다. 이러한 본질적 편향을 입증하기 위해 우리는 통제된 합성 데이터와 인간 주석이 달린 새로운 실세계 데이터셋을 결합한 SimMotion 벤치마크를 소개합니다. 기존 모델들이 이 벤치마크에서 성능이 낮으며, 종종 외관과 운동을 분리하는 데 실패함을 보여줍니다. 이러한 격차를 해결하기 위해 우리는 사전 훈련된 의미론적 모델의 특징에 대해 시간적 통계(구체적으로 고차 모멘트)를 계산하는 간단한 비훈련 방법인 SemanticMoments를 제안합니다. 우리 벤치마크 전반에 걸쳐 SemanticMoments는 기존 RGB, 흐름 및 텍스트 지도 방법을 지속적으로 능가합니다. 이는 의미론적 특징 공간에서의 시간적 통계가 운동 중심 비디오 이해를 위한 확장 가능하고 지각적으로 근거 있는 기초를 제공함을 입증합니다.
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.