Vislumbrando o Futuro, Passo a Passo
Envisioning the Future, One Step at a Time
April 10, 2026
Autores: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI
Resumo
Antecipar com precisão a evolução de cenas complexas e diversificadas requer modelos que representem a incerteza, simulem cadeias extensas de interação e explorem eficientemente muitos futuros plausíveis. No entanto, a maioria das abordagens existentes depende de previsões densas no espaço de vídeo ou latente, gastando capacidade substancial na aparência densa, e não nas trajetórias esparsas subjacentes dos pontos na cena. Isso torna a exploração em larga escala de hipóteses futuras dispendiosa e limita o desempenho quando o movimento multimodal de longo prazo é essencial. Nós abordamos este problema formulando a previsão da dinâmica futura de cena de conjunto aberto como uma inferência passo a passo sobre trajetórias esparsas de pontos. Nosso modelo de difusão autorregressivo avança nessas trajetórias por meio de transições curtas e localmente previsíveis, modelando explicitamente o crescimento da incerteza ao longo do tempo. Esta representação centrada na dinâmica permite a rápida geração de milhares de futuros diversos a partir de uma única imagem, opcionalmente guiada por restrições iniciais de movimento, mantendo a plausibilidade física e a coerência de longo alcance. Apresentamos ainda o OWM, um benchmark para previsão de movimento de conjunto aberto baseado em diversos vídeos do mundo real, para avaliar a precisão e a variabilidade das distribuições de trajetórias previstas sob a incerteza do mundo real. Nosso método iguala ou supera simuladores densos em precisão preditiva, enquanto alcança uma velocidade de amostragem ordens de grandeza maior, tornando a previsão futura de conjunto aberto escalável e prática. Página do projeto: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.