SemanticMoments: Similaridade de Movimento sem Treinamento via Características do Terceiro Momento

Resumo

A recuperação de vídeos com base no movimento semântico é um problema fundamental, mas ainda não resolvido. As abordagens existentes de representação de vídeo dependem excessivamente da aparência estática e do contexto da cena, em vez da dinâmica do movimento, um viés herdado dos seus dados e objetivos de treinamento. Por outro lado, entradas tradicionais centradas no movimento, como o fluxo óptico, carecem da fundamentação semântica necessária para compreender o movimento de alto nível. Para demonstrar este viés inerente, introduzimos os benchmarks SimMotion, que combinam dados sintéticos controlados com um novo conjunto de dados do mundo real anotado manualmente. Mostramos que os modelos existentes têm um desempenho fraco nestes benchmarks, frequentemente falhando em separar o movimento da aparência. Para colmatar esta lacuna, propomos o SemanticMoments, um método simples e livre de treinamento que calcula estatísticas temporais (especificamente, momentos de ordem superior) sobre *features* de modelos semânticos pré-treinados. Nos nossos benchmarks, o SemanticMoments supera consistentemente os métodos existentes baseados em RGB, fluxo óptico e supervisão por texto. Isto demonstra que as estatísticas temporais num espaço de *features* semântico fornecem uma base escalável e perceptualmente fundamentada para a compreensão de vídeo centrada no movimento.

English

Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.

SemanticMoments: Similaridade de Movimento sem Treinamento via Características do Terceiro Momento

SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Resumo

Support