Lernen langfristiger Bewegungsrepräsentationen für effiziente Kinematikgenerierung
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
April 13, 2026
Autoren: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI
Zusammenfassung
Das Verständnis und die Vorhersage von Bewegung ist eine grundlegende Komponente der visuellen Intelligenz. Obwohl moderne Videomodelle ein starkes Verständnis der Szenendynamik aufweisen, bleibt die Erforschung mehrerer möglicher Zukunftsverläufe durch vollständige Videosynthese unverhältnismäßig ineffizient. Wir modellieren Szenendynamik um Größenordnungen effizienter, indem wir direkt auf einer langfristigen Bewegungs-Repräsentation operieren, die aus großskaligen Trajektorien gelernt wurde, die von Trackermodellen stammen. Dies ermöglicht die effiziente Erzeugung langer, realistischer Bewegungen, die vorgegebene Ziele erfüllen, die durch Textprompts oder räumliche Interaktionen spezifiziert sind. Um dies zu erreichen, lernen wir zunächst eine hochgradig komprimierte Bewegungs-Repräsentation mit einem zeitlichen Kompressionsfaktor von 64x. In diesem Raum trainieren wir ein konditionelles Flow-Matching-Modell, um Bewegungs-Latenzen zu erzeugen, die auf Aufgabenbeschreibungen konditioniert sind. Die resultierenden Bewegungsverteilungen übertreffen sowohl diejenigen modernster Videomodelle als auch spezialisierter, aufgabenspezifischer Ansätze.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.