Aprendizagem de Representações de Movimento de Longo Prazo para Geração Eficiente de Cinemática
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
April 13, 2026
Autores: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI
Resumo
A compreensão e previsão do movimento são componentes fundamentais da inteligência visual. Embora os modelos modernos de vídeo exibam uma forte compreensão da dinâmica das cenas, explorar múltiplos futuros possíveis através da síntese completa de vídeos permanece proibitivamente ineficiente. Modelamos a dinâmica das cenas de forma ordens de grandeza mais eficiente, operando diretamente sobre uma incorporação de movimento de longo prazo que é aprendida a partir de trajetórias em larga escala obtidas de modelos de rastreamento. Isso permite a geração eficiente de movimentos longos e realistas que atendem a objetivos especificados por meio de prompts de texto ou toques espaciais. Para alcançar isso, primeiro aprendemos uma incorporação de movimento altamente compactada com um fator de compressão temporal de 64x. Neste espaço, treinamos um modelo de correspondência de fluxo condicional para gerar latentes de movimento condicionados a descrições de tarefas. As distribuições de movimento resultantes superam tanto as dos modelos de vídeo de última geração quanto as de abordagens especializadas específicas para tarefas.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.