ChatPaper.aiChatPaper

Het leren van langetermijnbewegingsembeddingen voor efficiënte kinematische generatie

Learning Long-term Motion Embeddings for Efficient Kinematics Generation

April 13, 2026
Auteurs: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI

Samenvatting

Het begrijpen en voorspellen van beweging is een fundamenteel onderdeel van visuele intelligentie. Hoewel moderne videomodellen een sterk begrip van scènedynamiek vertonen, blijft het verkennen van meerdere mogelijke toekomsten via volledige videosynthese buitengewoon inefficiënt. Wij modelleren scènedynamiek vele ordes van grootte efficiënter door rechtstreeks te werken op een langetermijnbewegingsembedding die wordt geleerd uit grootschalige trajecten verkregen van trackermodellen. Dit maakt de efficiënte generatie van lange, realistische bewegingen mogelijk die voldoen aan doelstellingen gespecificeerd via tekstprompts of ruimtelijke prikkels. Om dit te bereiken, leren we eerst een sterk gecomprimeerde bewegingembedding met een temporele compressiefactor van 64x. In deze ruimte trainen we een conditioneel flow-matchingmodel om bewegingslatenten te genereren, geconditioneerd op taakbeschrijvingen. De resulterende bewegingsverdelingen overtreffen zowel die van state-of-the-art videomodellen als gespecialiseerde taakspecifieke benaderingen.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.
PDF62April 21, 2026