任意のシーンへの物体挿入:フォトリアルなビデオオブジェクト挿入
Anything in Any Scene: Photorealistic Video Object Insertion
January 30, 2024
著者: Chen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu
cs.AI
要旨
現実的なビデオシミュレーションは、仮想現実から映画制作まで、多様なアプリケーションにおいて大きな可能性を示しています。これは特に、実世界の設定でビデオを撮影することが非現実的または高コストであるシナリオにおいて顕著です。既存のビデオシミュレーション手法では、照明環境を正確にモデル化したり、物体の幾何学を表現したり、高いフォトリアリズムを達成したりすることがしばしば困難です。本論文では、物理的なリアリズムを強く重視し、既存の動的ビデオに任意のオブジェクトをシームレスに挿入するための新しい汎用フレームワーク「Anything in Any Scene」を提案します。提案する汎用フレームワークは、以下の3つの主要なプロセスを包含します:1) 幾何学的なリアリズムを確保するために、与えられたシーンビデオに現実的なオブジェクトを適切に配置して統合する;2) 空と環境照明の分布を推定し、現実的な影をシミュレートして照明のリアリズムを高める;3) 最終的なビデオ出力を洗練させてフォトリアリズムを最大化するスタイル転送ネットワークを採用する。実験的に、Anything in Any Sceneフレームワークが、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムを備えたシミュレーションビデオを生成することを実証します。ビデオデータ生成に関連する課題を大幅に軽減することで、本フレームワークは高品質なビデオを効率的かつコスト効果的に取得するためのソリューションを提供します。さらに、その応用範囲はビデオデータ拡張をはるかに超え、仮想現実、ビデオ編集、およびその他のビデオ中心のアプリケーションにおいて有望な可能性を示しています。プロジェクトコードや高解像度のビデオ結果にアクセスするためには、プロジェクトウェブサイトhttps://anythinginanyscene.github.ioをご確認ください。
English
Realistic video simulation has shown significant potential across diverse
applications, from virtual reality to film production. This is particularly
true for scenarios where capturing videos in real-world settings is either
impractical or expensive. Existing approaches in video simulation often fail to
accurately model the lighting environment, represent the object geometry, or
achieve high levels of photorealism. In this paper, we propose Anything in Any
Scene, a novel and generic framework for realistic video simulation that
seamlessly inserts any object into an existing dynamic video with a strong
emphasis on physical realism. Our proposed general framework encompasses three
key processes: 1) integrating a realistic object into a given scene video with
proper placement to ensure geometric realism; 2) estimating the sky and
environmental lighting distribution and simulating realistic shadows to enhance
the light realism; 3) employing a style transfer network that refines the final
video output to maximize photorealism. We experimentally demonstrate that
Anything in Any Scene framework produces simulated videos of great geometric
realism, lighting realism, and photorealism. By significantly mitigating the
challenges associated with video data generation, our framework offers an
efficient and cost-effective solution for acquiring high-quality videos.
Furthermore, its applications extend well beyond video data augmentation,
showing promising potential in virtual reality, video editing, and various
other video-centric applications. Please check our project website
https://anythinginanyscene.github.io for access to our project code and more
high-resolution video results.