Imaginer l'avenir, pas à pas.

Résumé

Anticiper précisément l'évolution de scènes complexes et diverses nécessite des modèles capables de représenter l'incertitude, de simuler de longues chaînes d'interactions et d'explorer efficacement de nombreux futurs plausibles. Pourtant, la plupart des approches existantes reposent sur la prédiction dense de vidéos ou d'espaces latents, consacrant une capacité substantielle à l'apparence dense plutôt qu'aux trajectoires sous-jacentes et éparses des points de la scène. Cela rend l'exploration à grande échelle des hypothèses futures coûteuse et limite les performances lorsque des mouvements multimodaux à long terme sont essentiels. Nous abordons ce problème en formulant la prédiction de la dynamique future ouverte des scènes comme une inférence pas-à-pas sur des trajectoires de points éparses. Notre modèle de diffusion autorégressif fait progresser ces trajectoires par de courtes transitions localement prévisibles, modélisant explicitement la croissance de l'incertitude dans le temps. Cette représentation axée sur la dynamique permet un déploiement rapide de milliers de futurs divers à partir d'une seule image, éventuellement guidé par des contraintes initiales sur le mouvement, tout en maintenant la plausibilité physique et la cohérence à long terme. Nous introduisons en outre OWM, un benchmark pour la prédiction de mouvement en ensemble ouvert basé sur des vidéos diverses en conditions réelles, afin d'évaluer la précision et la variabilité des distributions de trajectoires prédites sous incertitude réaliste. Notre méthode égale ou dépasse les simulateurs denses en précision prédictive tout en atteignant une vitesse d'échantillonnage plusieurs ordres de grandeur plus élevée, rendant la prédiction future ouverte à la fois scalable et pratique. Page du projet : http://compvis.github.io/myriad.

English

Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.

Imaginer l'avenir, pas à pas.

Envisioning the Future, One Step at a Time

Résumé

Support