VideoRepair:不一致評価と局所修正を通じたテキストからビデオへの生成の改善
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
November 22, 2024
著者: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
要旨
最近のテキストからビデオ(T2V)拡散モデルは、さまざまな領域で印象的な生成能力を示しています。しかし、これらのモデルはしばしば、複数のオブジェクトや属性を持つ複雑なシーンを記述するプロンプトに対して、テキストとの整合性のないビデオを生成します。この課題に対処するために、我々はVideoRepairを導入します。これは、モデルに依存しないトレーニング不要のビデオリファインメントフレームワークであり、細かいテキスト-ビデオの不整合を自動的に特定し、明示的な空間的およびテキストフィードバックを生成することで、T2V拡散モデルが対象とする場所に焦点を当てたローカライズされたリファインメントを行うことを可能にします。VideoRepairは、次の4つの段階で構成されています:(1)ビデオ評価では、MLLMを用いて細かい評価質問を生成し、それに回答することで不整合を検出します。 (2)リファインメント計画では、正確に生成されたオブジェクトを特定し、他の領域をリファインするためのローカライズされたプロンプトを作成します。次に、(3)領域分解では、結合されたグラウンディングモジュールを使用して正しく生成された領域をセグメント化します。我々は、(4)ローカライズされたリファインメントで、不整合した領域を調整しながら正しい領域を保持することでビデオを再生成します。人気のあるビデオ生成ベンチマーク(EvalCrafterおよびT2V-CompBench)において、VideoRepairはさまざまなテキスト-ビデオ整合メトリクスで最近のベースラインを大幅に上回る性能を発揮します。我々はVideoRepairのコンポーネントの包括的な分析と質的な例を提供します。
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive
generation capabilities across various domains. However, these models often
generate videos that have misalignments with text prompts, especially when the
prompts describe complex scenes with multiple objects and attributes. To
address this, we introduce VideoRepair, a novel model-agnostic, training-free
video refinement framework that automatically identifies fine-grained
text-video misalignments and generates explicit spatial and textual feedback,
enabling a T2V diffusion model to perform targeted, localized refinements.
VideoRepair consists of four stages: In (1) video evaluation, we detect
misalignments by generating fine-grained evaluation questions and answering
those questions with MLLM. In (2) refinement planning, we identify accurately
generated objects and then create localized prompts to refine other areas in
the video. Next, in (3) region decomposition, we segment the correctly
generated area using a combined grounding module. We regenerate the video by
adjusting the misaligned regions while preserving the correct regions in (4)
localized refinement. On two popular video generation benchmarks (EvalCrafter
and T2V-CompBench), VideoRepair substantially outperforms recent baselines
across various text-video alignment metrics. We provide a comprehensive
analysis of VideoRepair components and qualitative examples.Summary
AI-Generated Summary