ChatPaper.aiChatPaper

生成的ビュー統合

Generative View Stitching

October 28, 2025
著者: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI

要旨

自己回帰型ビデオ拡散モデルは、安定した履歴整合性の高い長尺の動画生成が可能であるが、将来フレームからの条件付けによる現在の生成過程の誘導ができない。事前定義されたカメラ軌道に基づくカメラ誘導型ビデオ生成において、この制約は生成シーンとの衝突を引き起こし、衝突後は自己回帰が急速に破綻する。この問題を解決するため、我々は生成的視点縫合(Generative View Stitching: GVS)を提案する。これは全シーケンスを並列にサンプリングし、生成シーンが事前定義されたカメラ軌道の全区間に対して忠実となるようにする。主な貢献は、ロボット計画のための拡散縫合の先行研究をビデオ生成に拡張したサンプリングアルゴリズムである。従来の縫合手法は専用に訓練されたモデルを必要とする場合が多いが、GVSはDiffusion Forcing(広く用いられるシーケンス拡散フレームワーク)で訓練された既存のオフ・ザ・シェルフのビデオモデルと互換性がある。本論文では、このフレームワークが既に縫合に必要な機能を備えていることを示す。さらに、過去と未来の両方で条件付けを行うことで縫合における時間的一貫性を強化し、長距離コヒーレンスを実現するループ閉鎖メカニズムを可能にするOmni Guidanceを導入する。全体として、GVSは安定性、衝突回避、フレーム間一貫性を備え、オスカー・ロイタースヴァルドの「不可能階段」を含む様々な事前定義カメラ経路に対してループ閉鎖を実現するカメラ誘導型ビデオ生成を実現する。結果はhttps://andrewsonga.github.io/gvs の動画でご覧いただくのが最適である。
English
Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.
PDF22December 2, 2025