SemanticMoments: Trainingsvrije Bewegingsgelijkenis via Derde Moment Kenmerken

Samenvatting

Het ophalen van video's op basis van semantische beweging is een fundamenteel, maar nog onopgelost probleem. Bestaande benaderingen voor videorepresentatie vertrouwen te veel op statische verschijning en scènecontext in plaats van bewegingsdynamiek, een vooroordeel dat ze erven van hun trainingsdata en -doelen. Traditionele, beweging-centrische invoer zoals optische stroming daarentegen mist de semantische verankering die nodig is om hoogwaardige beweging te begrijpen. Om deze inherente bias aan te tonen, introduceren we de SimMotion-benchmarks, die gecontroleerde synthetische data combineren met een nieuwe, door mensen geannoteerde dataset uit de echte wereld. We tonen aan dat bestaande modellen slecht presteren op deze benchmarks en vaak niet in staat zijn beweging van verschijning te onderscheiden. Om deze kloof te dichten, stellen we SemanticMoments voor, een eenvoudige, trainingsvrije methode die temporele statistieken (specifiek, hogere-orde momenten) berekent over features van voorgetrainde semantische modellen. Op al onze benchmarks presteert SemanticMoments consistent beter dan bestaande RGB-, stromings- en tekstgesuperviseerde methoden. Dit toont aan dat temporele statistieken in een semantische feature-ruimte een schaalbare en perceptueel verankerde basis bieden voor beweging-centrisch videobegrip.

English

Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.

SemanticMoments: Trainingsvrije Bewegingsgelijkenis via Derde Moment Kenmerken

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Samenvatting

Support