ChatPaper.aiChatPaper

Follow-Your-Canvas: 豊富なコンテンツ生成を用いた高解像度ビデオのアウトペインティング

Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

September 2, 2024
著者: Qihua Chen, Yue Ma, Hongfa Wang, Junkun Yuan, Wenzhe Zhao, Qi Tian, Hongmei Wang, Shaobo Min, Qifeng Chen, Wei Liu
cs.AI

要旨

この論文は、高解像度ビデオのアウトペインティングと内容生成に焦点を当てています。既存の手法がビデオの大規模なアウトペインティングを試みる際に直面する一般的な問題点を指摘します:低品質なコンテンツの生成とGPUメモリによる制約。これらの課題に対処するため、私たちは「Follow-Your-Canvas」と呼ばれる拡散ベースの手法を提案します。この手法は、2つの中核的な設計に基づいて構築されています。まず、一発のアウトペインティングの一般的な手法を採用する代わりに、タスクを空間ウィンドウに分散させ、シームレスに統合します。これにより、GPUメモリに制約されることなく、任意のサイズや解像度のビデオをアウトペインティングすることが可能となります。第二に、各ウィンドウの生成プロセスにソースビデオとその相対的な位置関係を導入します。これにより、各ウィンドウ内の生成された空間レイアウトがソースビデオと調和するようになります。これら2つの設計と組み合わせることで、空間的および時間的な一貫性を保ちつつ、豊富なコンテンツを持つ高解像度のアウトペインティングビデオを生成することが可能となります。Follow-Your-Canvasは、512X512から1152X2048(9倍)などの大規模ビデオのアウトペインティングに優れており、高品質で美しく見栄えのする結果を生み出します。さまざまな解像度とスケールのセットアップにおいて最良の定量的結果を達成しています。コードはhttps://github.com/mayuelala/FollowYourCanvas で公開されています。
English
This paper explores higher-resolution video outpainting with extensive content generation. We point out common issues faced by existing methods when attempting to largely outpaint videos: the generation of low-quality content and limitations imposed by GPU memory. To address these challenges, we propose a diffusion-based method called Follow-Your-Canvas. It builds upon two core designs. First, instead of employing the common practice of "single-shot" outpainting, we distribute the task across spatial windows and seamlessly merge them. It allows us to outpaint videos of any size and resolution without being constrained by GPU memory. Second, the source video and its relative positional relation are injected into the generation process of each window. It makes the generated spatial layout within each window harmonize with the source video. Coupling with these two designs enables us to generate higher-resolution outpainting videos with rich content while keeping spatial and temporal consistency. Follow-Your-Canvas excels in large-scale video outpainting, e.g., from 512X512 to 1152X2048 (9X), while producing high-quality and aesthetically pleasing results. It achieves the best quantitative results across various resolution and scale setups. The code is released on https://github.com/mayuelala/FollowYourCanvas

Summary

AI-Generated Summary

PDF62November 16, 2024