Qihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille
122
近年、ビデオ生成技術は大きな進歩を遂げてきた。しかし、複雑な動きや相互作用を生成する上では依然として課題が残されている。これらの課題に対処するため、本研究ではReVisionを提案する。これは、事前学習済みの条件付きビデオ生成モデルにパラメータ化された3D物理知識を明示的に統合するプラグアンドプレイフレームワークであり、複雑な動きや相互作用を含む高品質なビデオ生成能力を大幅に向上させる。
具体的には、ReVisionは3つの段階で構成される。まず、ビデオ拡散モデルを使用して粗いビデオを生成する。次に、この粗いビデオから2Dおよび3Dの特徴量を抽出し、3Dオブジェクト中心の表現を構築する。その後、提案するパラメータ化された物理事前モデルによって精緻化され、正確な3Dモーションシーケンスを生成する。最後に、この精緻化されたモーションシーケンスを追加の条件として同じビデオ拡散モデルにフィードバックし、複雑なアクションや相互作用を含むシナリオでもモーションに一貫性のあるビデオを生成可能にする。
我々は、Stable Video Diffusionにおいて本アプローチの有効性を検証し、ReVisionがモーションの忠実度と一貫性を大幅に向上させることを確認した。注目すべきは、わずか1.5Bのパラメータで、13B以上のパラメータを持つ最先端のビデオ生成モデルを複雑なビデオ生成において大幅に上回る性能を示したことである。これらの結果は、3D物理知識を組み込むことで、比較的小規模なビデオ拡散モデルでも、より現実的で制御可能な複雑な動きや相互作用を生成できる可能性を示しており、物理的に妥当なビデオ生成の有望な解決策を提供するものである。