ChatPaper.aiChatPaper

Apprendimento di Embedding Motori a Lungo Termine per una Generazione Efficiente della Cinematica

Learning Long-term Motion Embeddings for Efficient Kinematics Generation

April 13, 2026
Autori: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer
cs.AI

Abstract

Comprendere e prevedere il movimento è un componente fondamentale dell'intelligenza visiva. Sebbene i moderni modelli video mostrino una forte comprensione della dinamica delle scene, esplorare futuri possibili multipli attraverso la sintesi completa di video rimane proibitivamente inefficiente. Noi modelliamo la dinamica delle scene in modo ordini di grandezza più efficiente operando direttamente su un embedding di movimento a lungo termine, appreso da traiettorie su larga scala ottenute da modelli tracker. Ciò consente la generazione efficiente di movimenti lunghi e realistici che soddisfano obiettivi specificati tramite prompt testuali o interazioni spaziali (pokes). Per ottenere questo, apprendiamo prima un embedding di movimento altamente compresso con un fattore di compressione temporale di 64x. In questo spazio, addestriamo un modello di flow-matching condizionato per generare latenti di movimento condizionati da descrizioni del compito. Le distribuzioni di movimento risultanti superano quelle sia dei modelli video all'avanguardia che degli approcci specializzati per compiti specifici.
English
Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.
PDF62April 21, 2026