ストリートスケープ:自己回帰型ビデオ拡散モデルを用いた大規模で一貫性のあるストリートビュー生成
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
July 18, 2024
著者: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein
cs.AI
要旨
私たちは、オンザフライで合成された都市規模のシーンを通じて、長いストリートビューのシーケンスを生成する方法を提案します。この生成は、言語入力(例:都市名、天候)と、目的の軌跡を保持する基盤となる地図/レイアウトによって条件付けられます。最近のビデオ生成や3Dビュー合成のモデルと比較して、私たちの方法は、視覚的な品質と一貫性を維持しながら、数ブロックにわたるはるかに長距離のカメラ軌跡にスケールすることができます。この目標を達成するために、長いシーケンスに容易にスケールできる自己回帰フレームワーク内で使用されるビデオ拡散に関する最近の研究を基盤としています。特に、現実的な都市イメージの分布から自己回帰アプローチが逸脱するのを防ぐ新しい時間的補完方法を導入します。私たちは、Googleストリートビューからのポーズ付き画像と、文脈的な地図データという魅力的なデータソースでStreetscapesシステムをトレーニングし、ユーザーが任意の都市レイアウトに基づいて、制御可能なカメラポーズで都市ビューを生成できるようにします。詳細な結果はプロジェクトページ(https://boyangdeng.com/streetscapes)をご覧ください。
English
We present a method for generating Streetscapes-long sequences of views
through an on-the-fly synthesized city-scale scene. Our generation is
conditioned by language input (e.g., city name, weather), as well as an
underlying map/layout hosting the desired trajectory. Compared to recent models
for video generation or 3D view synthesis, our method can scale to much
longer-range camera trajectories, spanning several city blocks, while
maintaining visual quality and consistency. To achieve this goal, we build on
recent work on video diffusion, used within an autoregressive framework that
can easily scale to long sequences. In particular, we introduce a new temporal
imputation method that prevents our autoregressive approach from drifting from
the distribution of realistic city imagery. We train our Streetscapes system on
a compelling source of data-posed imagery from Google Street View, along with
contextual map data-which allows users to generate city views conditioned on
any desired city layout, with controllable camera poses. Please see more
results at our project page at https://boyangdeng.com/streetscapes.Summary
AI-Generated Summary