Aprendizaje de Incrustaciones de Movimiento a Largo Plazo para la Generación Eficiente de Cinemáticas
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
April 13, 2026
Autores: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI
Resumen
Comprender y predecir el movimiento es un componente fundamental de la inteligencia visual. Aunque los modelos de video modernos muestran una sólida comprensión de la dinámica escénica, explorar múltiples futuros posibles mediante la síntesis completa de videos sigue siendo prohibitivamente ineficiente. Modelamos la dinámica escénica de manera órdenes de magnitud más eficiente operando directamente sobre un *embedding* de movimiento a largo plazo que se aprende a partir de trayectorias a gran escala obtenidas de modelos *tracker*. Esto permite la generación eficiente de movimientos largos y realistas que cumplen objetivos especificados mediante *prompts* de texto o interacciones espaciales (*pokes*). Para lograrlo, primero aprendemos un *embedding* de movimiento altamente comprimido con un factor de compresión temporal de 64x. En este espacio, entrenamos un modelo de *flow-matching* condicional para generar latentes de movimiento condicionados a descripciones de tareas. Las distribuciones de movimiento resultantes superan a las de los modelos de video de última generación y a los enfoques especializados específicos para tareas.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.