VideoRepair: Verbesserung der Text-zu-Video-Generierung durch Bewertung von Fehlausrichtung und lokaler Verfeinerung
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
November 22, 2024
Autoren: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Zusammenfassung
Aktuelle Text-zu-Video (T2V) Diffusionsmodelle haben beeindruckende Generierungsfähigkeiten in verschiedenen Bereichen gezeigt. Allerdings generieren diese Modelle oft Videos, die nicht mit den Textvorgaben übereinstimmen, insbesondere wenn die Vorgaben komplexe Szenen mit mehreren Objekten und Attributen beschreiben. Um dies zu lösen, stellen wir VideoRepair vor, ein neuartiges, modellagnostisches, trainingsfreies Videoverfeinerungsframework, das automatisch feingranulare Text-Video-Unstimmigkeiten identifiziert und explizites räumliches und textuelles Feedback generiert, um einem T2V-Diffusionsmodell gezielte, lokalisierte Verfeinerungen zu ermöglichen. VideoRepair besteht aus vier Phasen: In (1) der Videoauswertung erkennen wir Unstimmigkeiten, indem wir feingranulare Auswertungsfragen generieren und diese mit MLLM beantworten. In (2) der Verfeinerungsplanung identifizieren wir genau generierte Objekte und erstellen dann lokalisierte Vorgaben, um andere Bereiche im Video zu verfeinern. Anschließend segmentieren wir in (3) der Regionenzerlegung den korrekt generierten Bereich mithilfe eines kombinierten Verankerungsmoduls. Wir regenerieren das Video, indem wir die nicht übereinstimmenden Regionen anpassen und die korrekten Regionen in (4) der lokalen Verfeinerung beibehalten. Auf zwei beliebten Videogenerierungsbewertungen (EvalCrafter und T2V-CompBench) übertrifft VideoRepair deutlich aktuelle Vergleichsmodelle in verschiedenen Text-Video-Abstimmungsmetriken. Wir bieten eine umfassende Analyse der VideoRepair-Komponenten und qualitative Beispiele an.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive
generation capabilities across various domains. However, these models often
generate videos that have misalignments with text prompts, especially when the
prompts describe complex scenes with multiple objects and attributes. To
address this, we introduce VideoRepair, a novel model-agnostic, training-free
video refinement framework that automatically identifies fine-grained
text-video misalignments and generates explicit spatial and textual feedback,
enabling a T2V diffusion model to perform targeted, localized refinements.
VideoRepair consists of four stages: In (1) video evaluation, we detect
misalignments by generating fine-grained evaluation questions and answering
those questions with MLLM. In (2) refinement planning, we identify accurately
generated objects and then create localized prompts to refine other areas in
the video. Next, in (3) region decomposition, we segment the correctly
generated area using a combined grounding module. We regenerate the video by
adjusting the misaligned regions while preserving the correct regions in (4)
localized refinement. On two popular video generation benchmarks (EvalCrafter
and T2V-CompBench), VideoRepair substantially outperforms recent baselines
across various text-video alignment metrics. We provide a comprehensive
analysis of VideoRepair components and qualitative examples.Summary
AI-Generated Summary