ChatPaper.aiChatPaper

OmniCreator: 自己監督統合生成と普遍編集

OmniCreator: Self-Supervised Unified Generation with Universal Editing

December 3, 2024
著者: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim
cs.AI

要旨

私たちは、OmniCreatorという新しいフレームワークを紹介します。このフレームワークは、テキストプロンプトによる統合(画像+動画)生成および編集を1つの場所で行うことができます。OmniCreatorは、自己教師付きの方法で生成的かつ普遍的な編集能力を獲得し、元のテキスト-動画ペアを条件として取り、同じ動画をノイズ除去のターゲットとして利用して、動画とテキストの意味的対応関係を学習します。推論時には、テキストプロンプトと動画が提示されると、OmniCreatorは両方に忠実なターゲットを生成する能力を持ち、既存の編集作業が特定の編集タイプに主に焦点を当てるか、追加の制御(例:構造条件、注意機能、またはDDIM反転)に依存するのに対して、制約のない普遍的な編集効果を達成します。一方、テキストプロンプトのみが提示されると、OmniCreatorは生成的になり、学習した意味的対応関係の結果として高品質の動画を生成します。重要なことに、同じ能力が画像にも適用されることがわかり、OmniCreatorを真に統一されたフレームワークにします。さらに、既存の生成的動画編集ベンチマークが不足しているため、私たちはOmniBench-99データセットを導入しました。このデータセットは、生成的動画編集モデルのパフォーマンスを包括的に評価するために設計されています。幅広い実験により、OmniCreatorが他のすべてのモデルに対して著しい優位性を示すことが示されました。
English
We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.

Summary

AI-Generated Summary

PDF143December 4, 2024