Die Zukunft Schritt für Schritt entwerfen
Envisioning the Future, One Step at a Time
April 10, 2026
Autoren: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI
Zusammenfassung
Eine präzise Vorhersage der Entwicklung komplexer, vielseitiger Szenen erfordert Modelle, die Unsicherheit abbilden, längere Interaktionsketten simulieren und effizient viele plausible Zukunftsverläufe erkunden können. Bisherige Ansätze basieren jedoch meist auf der Vorhersage dichter Video- oder Latent-Space-Repräsentationen, wobei erhebliche Kapazität auf dichte Erscheinungsmerkmale statt auf die zugrundeliegenden, spärlichen Trajektorien von Punkten in der Szene verwendet wird. Dies macht die großskalige Erkundung von Zukunfthypothesen kostspielig und schränkt die Leistung ein, wenn langfristige, multimodale Bewegungen entscheidend sind. Wir lösen dieses Problem, indem wir die Vorhersage von Open-Set-Szenendynamiken als schrittweise Inferenz über spärliche Punkt-Trajektorien formulieren. Unser autoregressives Diffusionsmodell entwickelt diese Trajektorien durch kurze, lokal vorhersagbare Übergänge weiter und modelliert explizit das Anwachsen von Unsicherheit über die Zeit. Diese dynamikzentrierte Darstellung ermöglicht die schnelle Erzeugung Tausender diverser Zukunftsverläufe aus einem einzelnen Bild, optional gesteuert durch anfängliche Bewegungsbeschränkungen, bei gleichzeitiger Wahrung der physikalischen Plausibilität und langreichweitiger Kohärenz. Wir führen zudem OWM ein, einen Benchmark für Open-Set-Bewegungsvorhersage basierend auf diversen In-the-Wild-Videos, um die Genauigkeit und Variabilität vorhergesagter Trajektorienverteilungen unter realweltlicher Unsicherheit zu bewerten. Unser Verfahren erreicht eine vergleichbare oder bessere Vorhersagegenauigkeit als dichte Simulatoren, bei gleichzeitig um Größenordnungen höherer Abtastgeschwindigkeit, was Open-Set-Zukunftsprognosen sowohl skalierbar als auch praktisch umsetzbar macht. Projektseite: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.