SemanticMoments: Similitud de Movimiento sin Entrenamiento mediante Características del Tercer Momento
SemanticMoments: Training-Free Motion Similarity via Third Moment Features
February 9, 2026
Autores: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady
cs.AI
Resumen
La recuperación de vídeos basada en el movimiento semántico es un problema fundamental pero aún sin resolver. Los enfoques de representación de vídeo existentes dependen excesivamente de la apariencia estática y el contexto de la escena, en lugar de la dinámica del movimiento, un sesgo heredado de sus datos y objetivos de entrenamiento. Por el contrario, las entradas tradicionales centradas en el movimiento, como el flujo óptico, carecen de la base semántica necesaria para comprender el movimiento de alto nivel. Para demostrar este sesgo inherente, presentamos los benchmarks SimMotion, que combinan datos sintéticos controlados con un nuevo conjunto de datos del mundo real anotado manualmente. Mostramos que los modelos existentes tienen un rendimiento deficiente en estas pruebas, a menudo sin lograr separar el movimiento de la apariencia. Para abordar esta brecha, proponemos SemanticMoments, un método simple y libre de entrenamiento que calcula estadísticas temporales (específicamente, momentos de orden superior) sobre características de modelos semánticos preentrenados. En todas nuestras pruebas, SemanticMoments supera consistentemente a los métodos existentes basados en RGB, flujo óptico y supervisión textual. Esto demuestra que las estadísticas temporales en un espacio de características semánticas proporcionan una base escalable y perceptualmente fundamentada para la comprensión de vídeos centrada en el movimiento.
English
Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.