ChatPaper.aiChatPaper

Apprentissage d'embeddings de mouvement à long terme pour une génération efficace de la cinématique

Learning Long-term Motion Embeddings for Efficient Kinematics Generation

April 13, 2026
Auteurs: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI

Résumé

Comprendre et prédire le mouvement est une composante fondamentale de l'intelligence visuelle. Bien que les modèles vidéo modernes démontrent une compréhension solide de la dynamique des scènes, l'exploration de multiples futurs possibles via la synthèse complète de vidéos reste prohibitivement inefficace. Nous modélisons la dynamique des scènes de manière bien plus efficace en opérant directement sur un embedding de mouvement à long terme, appris à partir de trajectoires à grande échelle obtenues via des modèles de suivi. Cela permet la génération efficace de mouvements longs et réalistes qui satisfont des objectifs spécifiés par des invites textuelles ou des interactions spatiales. Pour y parvenir, nous apprenons d'abord un embedding de mouvement hautement compressé avec un facteur de compression temporelle de 64x. Dans cet espace, nous entraînons un modèle de "flow-matching" conditionnel pour générer des latents de mouvement conditionnés par des descriptions de tâches. Les distributions de mouvement qui en résultent surpassent celles des modèles vidéo à la pointe ainsi que des approches spécialisées spécifiques à une tâche.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.
PDF21April 15, 2026