ChatPaper.aiChatPaper

未来を描く、一歩ずつ着実に。

Envisioning the Future, One Step at a Time

April 10, 2026
著者: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI

要旨

複雑で多様なシーンの進化を正確に予測するには、不確実性を表現し、長い相互作用の連鎖に沿ってシミュレーションを行い、多くの可能性のある未来を効率的に探索するモデルが必要である。しかし、既存の手法のほとんどは、高密度なビデオまたは潜在空間の予測に依存しており、シーン内の点の基礎となる疎な軌跡ではなく、高密度な見た目に多大な容量を費やしている。これにより、未来仮説の大規模な探索は高コストとなり、長期的で多様なモードの動きが不可欠な場合の性能が制限される。我々はこの問題に対処するため、オープンセットの未来シーンダイナミクスの予測を、疎な点軌跡に対する段階的推論として定式化する。我々の自己回帰拡散モデルは、これらの軌跡を短く局所的に予測可能な遷移を通じて発展させ、時間の経過に伴う不確実性の増大を明示的にモデル化する。このダイナミクス中心の表現により、単一画像から数千もの多様な未来の高速なロールアウトが可能となり、必要に応じて動きに関する初期制約で導きつつ、物理的な妥当性と長距離の一貫性を維持する。さらに、実世界の不確実性の下での予測軌跡分布の精度と多様性を評価するため、多様な実世界ビデオに基づくオープンセット動き予測ベンチマークOWMを導入する。我々の手法は、予測精度において高密度シミュレータに匹敵または凌駕しつつ、数桁高速なサンプリング速度を実現し、オープンセットの未来予測をスケーラブルかつ実用的なものとする。プロジェクトページ: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.
PDF52April 14, 2026