SemanticMoments: Similarità del Movimento Senza Addestramento Tramite Caratteristiche del Terzo Momento

Abstract

Il recupero di video basato sul movimento semantico è un problema fondamentale ma ancora irrisolto. Gli approcci esistenti di rappresentazione video si affidano eccessivamente all'aspetto statico e al contesto della scena piuttosto che alla dinamica del movimento, un bias ereditato dai loro dati e obiettivi di addestramento. Al contrario, gli input tradizionali incentrati sul movimento come il flusso ottico mancano del grounding semantico necessario per comprendere il movimento a livello alto. Per dimostrare questo bias intrinseco, introduciamo i benchmark SimMotion, che combinano dati sintetici controllati con un nuovo dataset del mondo reale annotato manualmente. Mostriamo che i modelli esistenti ottengono scarse prestazioni su questi benchmark, spesso fallendo nel separare il movimento dall'aspetto. Per colmare questa lacuna, proponiamo SemanticMoments, un metodo semplice e senza addestramento che calcola statistiche temporali (in particolare, momenti di ordine superiore) su feature provenienti da modelli semantici pre-addestrati. Attraverso i nostri benchmark, SemanticMoments supera costantemente i metodi esistenti basati su RGB, flusso ottico e supervisione testuale. Ciò dimostra che le statistiche temporali in uno spazio semantico delle feature forniscono una base scalabile e perceptualmente fondata per la comprensione video centrata sul movimento.

English

Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.

SemanticMoments: Similarità del Movimento Senza Addestramento Tramite Caratteristiche del Terzo Momento

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Abstract

Support