Изучение долгосрочных представлений движения для эффективной генерации кинематики
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
April 13, 2026
Авторы: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI
Аннотация
Понимание и прогнозирование движения является фундаментальным компонентом зрительного интеллекта. Хотя современные видео-модели демонстрируют высокий уровень понимания динамики сцены, исследование множества возможных вариантов будущего путем полного синтеза видео остается крайне неэффективным. Мы моделируем динамику сцены на порядки эффективнее, работая непосредственно с долгосрочным представлением движения (мotion embedding), которое обучается на крупномасштабных траекториях, полученных от моделей трекеров. Это позволяет эффективно генерировать длинные, реалистичные движения, соответствующие целям, заданным текстовыми описаниями или пространственными указаниями (spatial pokes). Для достижения этого мы сначала обучаем высоко сжатое представление движения с коэффициентом временного сжатия 64x. В этом пространстве мы обучаем условную модель согласования потоков (conditional flow-matching) для генерации латентных кодов движения, обусловленных описанием задачи. Получаемые распределения движений превосходят таковые как у передовых видео-моделей, так и у специализированных подходов, разработанных для конкретных задач.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.