Imaginando el Futuro, Paso a Paso

Resumen

Predecir con precisión cómo evolucionarán escenas complejas y diversas requiere modelos que representen la incertidumbre, simulen cadenas de interacción extensas y exploren eficientemente múltiples futuros plausibles. Sin embargo, la mayoría de los enfoques existentes se basan en la predicción densa de vídeo o en espacios latentes, destinando una capacidad sustancial a la apariencia densa en lugar de a las trayazas subyacentes de trayectorias de puntos en la escena. Esto hace que la exploración a gran escala de hipótesis futuras sea costosa y limita el rendimiento cuando el movimiento multimodal a largo plazo es esencial. Abordamos este problema formulando la predicción de la dinámica futura de escenas de conjunto abierto como una inferencia paso a paso sobre trayectorias de puntos dispersas. Nuestro modelo de difusión autorregresivo avanza estas trayectorias mediante transiciones cortas y localmente predecibles, modelando explícitamente el crecimiento de la incertidumbre en el tiempo. Esta representación centrada en la dinámica permite el despliegue rápido de miles de futuros diversos a partir de una sola imagen, opcionalmente guiado por restricciones iniciales de movimiento, manteniendo la plausibilidad física y la coherencia a largo alcance. Además, presentamos OWM, un punto de referencia para la predicción de movimiento de conjunto abierto basado en diversos vídeos del mundo real, para evaluar la precisión y variabilidad de las distribuciones de trayectorias predichas bajo incertidumbre del mundo real. Nuestro método iguala o supera a los simuladores densos en precisión predictiva mientras logra una velocidad de muestreo órdenes de magnitud mayor, haciendo que la predicción futura de conjunto abierto sea escalable y práctica. Página del proyecto: http://compvis.github.io/myriad.

English

Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.

Imaginando el Futuro, Paso a Paso

Envisioning the Future, One Step at a Time

Resumen

Support