ChatPaper.aiChatPaper

SemanticMoments: Trainingsfreie Bewegungsähnlichkeit mittels Merkmalen dritter Momente

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

February 9, 2026
papers.authors: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI

papers.abstract

Die Extraktion von Videos basierend auf semantischer Bewegung ist ein grundlegendes, aber ungelöstes Problem. Bestehende Video-Repräsentationsansätze stützen sich übermäßig auf statische Erscheinungsmerkmale und Szenenkontext anstatt auf Bewegungsdynamik – eine Verzerrung, die von ihren Trainingsdaten und -zielen übernommen wird. Im Gegensatz dazu fehlt traditionellen bewegungszentrierten Eingaben wie optischem Fluss die semantische Verankerung, die zum Verständnis hochgradiger Bewegung notwendig ist. Um diese inhärente Verzerrung zu demonstrieren, führen wir die SimMotion-Benchmarks ein, die kontrollierte synthetische Daten mit einem neuen, menschlich annotierten Echtwelt-Datensatz kombinieren. Wir zeigen, dass bestehende Modelle auf diesen Benchmarks schlecht abschneiden und oft scheitern, Bewegung von Erscheinungsmerkmalen zu trennen. Um diese Lücke zu schließen, schlagen wir SemanticMoments vor, eine einfache, trainingsfreie Methode, die zeitliche Statistiken (insbesondere höhere Momente) über Merkmale vortrainierter semantischer Modelle berechnet. In unseren Benchmarks übertrifft SemanticMoments durchgängig bestehende RGB-, Fluss- und textüberwachte Methoden. Dies zeigt, dass zeitliche Statistiken in einem semantischen Merkmalsraum eine skalierbare und wahrnehmungsfundierte Grundlage für bewegungszentriertes Videoverständnis bieten.
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.
PDF182February 17, 2026