ChatPaper.aiChatPaper

한 걸음 한 걸음 내딛으며 미래를 그리다

Envisioning the Future, One Step at a Time

April 10, 2026
저자: Stefan Andreas Baumann, Jannik Wiese, Tommaso Martorella, Mahdi M. Kalayeh, Björn Ommer
cs.AI

초록

복잡하고 다양한 장면의 진화를 정확히 예측하려면 불확실성을 표현하고, 긴 상호작용 연쇄를 따라 시뮬레이션하며, 수많은 그럴듯한 미래를 효율적으로 탐색하는 모델이 필요합니다. 그러나 기존 대부분의 접근법은 밀집된 비디오 또는 잠재 공간 예측에 의존하여, 장면 내 점들의 근본적인 희소 궤적보다는 밀집된 외형 표현에 상당한 용량을 소모합니다. 이는 미래 가정의 대규모 탐색을 비용이 많이 들게 하고, 장기적·다중 양상 운동이 필수적인 경우 성능을 제한합니다. 우리는 개방형 집합 미래 장면 역학 예측을 희소 점 궤적에 대한 단계적 추론으로 공식화하여 이 문제를 해결합니다. 우리의 자기회귀 확산 모델은 이러한 궤적을 짧고 지역적으로 예측 가능한 전이를 통해 발전시키며, 시간에 따른 불확실성 증가를 명시적으로 모델링합니다. 이러한 역학 중심 표현은 단일 이미지로부터 수천 가지 다양한 미래를 빠르게 전개할 수 있게 하며, 필요시 운동에 대한 초기 제약 조건을 지도할 수 있으면서도 물리적 타당성과 장거리 일관성을 유지합니다. 우리는 더 나아가 실제 세계의 불확실성 하에서 예측된 궤적 분포의 정확도와 변동성을 평가하기 위해 다양한 실생활 비디오를 기반으로 한 개방형 집합 운동 예측 벤치마크 OWM을 소개합니다. 우리의 방법은 예측 정확도 면에서 밀집 시뮬레이터에 버금가거나 능가하는 동시에 수준 차원의 더 빠른 샘플링 속도를 달성하여 개방형 집합 미래 예측을 확장 가능하고 실용적으로 만듭니다. 프로젝트 페이지: http://compvis.github.io/myriad.
English
Accurately anticipating how complex, diverse scenes will evolve requires models that represent uncertainty, simulate along extended interaction chains, and efficiently explore many plausible futures. Yet most existing approaches rely on dense video or latent-space prediction, expending substantial capacity on dense appearance rather than on the underlying sparse trajectories of points in the scene. This makes large-scale exploration of future hypotheses costly and limits performance when long-horizon, multi-modal motion is essential. We address this by formulating the prediction of open-set future scene dynamics as step-wise inference over sparse point trajectories. Our autoregressive diffusion model advances these trajectories through short, locally predictable transitions, explicitly modeling the growth of uncertainty over time. This dynamics-centric representation enables fast rollout of thousands of diverse futures from a single image, optionally guided by initial constraints on motion, while maintaining physical plausibility and long-range coherence. We further introduce OWM, a benchmark for open-set motion prediction based on diverse in-the-wild videos, to evaluate accuracy and variability of predicted trajectory distributions under real-world uncertainty. Our method matches or surpasses dense simulators in predictive accuracy while achieving orders-of-magnitude higher sampling speed, making open-set future prediction both scalable and practical. Project page: http://compvis.github.io/myriad.
PDF52April 14, 2026