De Toekomst Voorstellen, Stap voor Stap
Envisioning the Future, One Step at a Time
April 10, 2026
Auteurs: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI
Samenvatting
Het nauwkeurig voorspellen van de evolutie van complexe, diverse scènes vereist modellen die onzekerheid representeren, simuleren langs uitgebreide interactieketens en efficiënt vele plausibele toekomsten verkennen. Toch vertrouwen de meeste bestaande methoden op dichte video- of latentieruimtevoorspelling, waarbij aanzienlijke capaciteit wordt besteed aan dichte verschijning in plaats van aan de onderliggende schaarse trajecten van punten in de scène. Dit maakt grootschalige verkenning van toekomsthypothesen kostbaar en beperkt de prestaties wanneer lange-termijn, multi-modale beweging essentieel is. Wij pakken dit aan door de voorspelling van open-set toekomstige scènedynamica te formuleren als stapsgewijze inferentie over schaarse punttrajecten. Ons autoregressieve diffusiemodel ontwikkelt deze trajecten verder door middel van korte, lokaal voorspelbare overgangen, waarbij expliciet de groei van onzekerheid in de tijd wordt gemodelleerd. Deze dynamiekgerichte representatie maakt een snelle uitrol mogelijk van duizenden diverse toekomsten vanuit één afbeelding, optioneel gestuurd door initiële beperkingen op beweging, met behoud van fysieke plausibiliteit en coherentie op lange termijn. Wij introduceren verder OWM, een benchmark voor open-set bewegingsvoorspelling gebaseerd op diverse in-the-wild video's, om de nauwkeurigheid en variabiliteit van voorspelde trajectverdelingen onder real-world onzekerheid te evalueren. Onze methode evenaart of overtreft dichte simulators in voorspellende nauwkeurigheid, terwijl een orde-van-grootte hogere sampelsnelheid wordt bereikt, waardoor open-set toekomstvoorspelling zowel schaalbaar als praktisch wordt. Projectpagina: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.