СемантическиеМоменты: Оценка сходства движений без обучения на основе признаков третьего момента
SemanticMoments: Training-Free Motion Similarity via Third Moment Features
February 9, 2026
Авторы: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI
Аннотация
Извлечение видео на основе семантического движения является фундаментальной, но до сих пор не решенной проблемой. Существующие подходы к представлению видео чрезмерно полагаются на статическую внешность и контекст сцены, а не на динамику движения — это смещение унаследовано от их обучающих данных и целей. В свою очередь, традиционные ориентированные на движение входные данные, такие как оптический поток, лишены семантической обоснованности, необходимой для понимания движения на высоком уровне. Чтобы продемонстрировать это внутреннее смещение, мы представляем бенчмарки SimMotion, сочетающие контролируемые синтетические данные с новым размеченным человеком набором данных из реального мира. Мы показываем, что существующие модели показывают низкую производительность на этих бенчмарках, часто не способные отделить движение от внешности. Для устранения этого пробела мы предлагаем SemanticMoments — простой, не требующий обучения метод, который вычисляет временные статистики (в частности, моменты высших порядков) для признаков из предварительно обученных семантических моделей. На наших бенчмарках SemanticMoments стабильно превосходит существующие методы, основанные на RGB, оптическом потоке и текстовом контроле. Это демонстрирует, что временные статистики в семантическом пространстве признаков обеспечивают масштабируемую и перцептивно обоснованную основу для ориентированного на движение понимания видео.
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.