VideoRepair: Verbesserung der Text-zu-Video-Generierung durch Bewertung von Fehlausrichtung und lokaler Verfeinerung

papers.abstract

Aktuelle Text-zu-Video (T2V) Diffusionsmodelle haben beeindruckende Generierungsfähigkeiten in verschiedenen Bereichen gezeigt. Allerdings generieren diese Modelle oft Videos, die nicht mit den Textvorgaben übereinstimmen, insbesondere wenn die Vorgaben komplexe Szenen mit mehreren Objekten und Attributen beschreiben. Um dies zu lösen, stellen wir VideoRepair vor, ein neuartiges, modellagnostisches, trainingsfreies Videoverfeinerungsframework, das automatisch feingranulare Text-Video-Unstimmigkeiten identifiziert und explizites räumliches und textuelles Feedback generiert, um einem T2V-Diffusionsmodell gezielte, lokalisierte Verfeinerungen zu ermöglichen. VideoRepair besteht aus vier Phasen: In (1) der Videoauswertung erkennen wir Unstimmigkeiten, indem wir feingranulare Auswertungsfragen generieren und diese mit MLLM beantworten. In (2) der Verfeinerungsplanung identifizieren wir genau generierte Objekte und erstellen dann lokalisierte Vorgaben, um andere Bereiche im Video zu verfeinern. Anschließend segmentieren wir in (3) der Regionenzerlegung den korrekt generierten Bereich mithilfe eines kombinierten Verankerungsmoduls. Wir regenerieren das Video, indem wir die nicht übereinstimmenden Regionen anpassen und die korrekten Regionen in (4) der lokalen Verfeinerung beibehalten. Auf zwei beliebten Videogenerierungsbewertungen (EvalCrafter und T2V-CompBench) übertrifft VideoRepair deutlich aktuelle Vergleichsmodelle in verschiedenen Text-Video-Abstimmungsmetriken. Wir bieten eine umfassende Analyse der VideoRepair-Komponenten und qualitative Beispiele an.

English

Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.

VideoRepair: Verbesserung der Text-zu-Video-Generierung durch Bewertung von Fehlausrichtung und lokaler Verfeinerung

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

papers.abstract

Support