Взгляд в будущее, шаг за шагом.
Envisioning the Future, One Step at a Time
April 10, 2026
Авторы: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI
Аннотация
Точное прогнозирование эволюции сложных разнородных сцен требует моделей, которые учитывают неопределенность, моделируют протяженные цепочки взаимодействий и эффективно исследуют множество правдоподобных вариантов будущего. Однако большинство существующих подходов опираются на предсказание в плотном видео- или латентном пространстве, затрачивая значительные ресурсы на плотное представление внешнего вида сцены, а не на лежащие в основе разреженные траектории точек. Это делает масштабное исследование гипотез о будущем дорогостоящим и ограничивает производительность в задачах, где критически важны долгосрочное и многомодальное движение. Мы решаем эту проблему, формулируя прогнозирование динамики сцены с открытым множеством исходов как пошаговый вывод на основе разреженных точечных траекторий. Наша авторегрессионная диффузионная модель продвигает эти траектории через короткие, локально предсказуемые переходы, явно моделируя нарастание неопределенности во времени. Такой ориентированный на динамику подход позволяет быстро развертывать тысячи различных вариантов будущего из одного изображения, при необходимости управляя начальными ограничениями на движение, сохраняя при этом физическую правдоподобность и согласованность на больших промежутках времени. Мы также представляем OWM, эталонный набор данных для прогнозирования движения с открытым множеством исходов, основанный на разнородных видеороликах из реального мира, для оценки точности и вариативности предсказанных распределений траекторий в условиях реальной неопределенности. Наш метод соответствует или превосходит плотные симуляторы по точности прогнозирования, достигая при этом на порядки более высокой скорости семплирования, что делает прогнозирование открытого будущего масштабируемым и практичным. Страница проекта: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.