ChatPaper.aiChatPaper

VideoRepair: Het verbeteren van de generatie van tekst-naar-video door middel van evaluatie van misalignatie en lokale verfijning.

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

November 22, 2024
Auteurs: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Samenvatting

Recente tekst-naar-video (T2V) diffusiemodellen hebben indrukwekkende generatiecapaciteiten aangetoond over verschillende domeinen. Echter, deze modellen genereren vaak video's met misalignments ten opzichte van tekst prompts, vooral wanneer de prompts complexe scènes met meerdere objecten en eigenschappen beschrijven. Om dit aan te pakken, introduceren we VideoRepair, een nieuw model-agnostisch, trainingvrij videoverfijningskader dat automatisch fijnmazige tekst-video misalignments identificeert en expliciete ruimtelijke en tekstuele feedback genereert, waardoor een T2V diffusiemodel gerichte, gelokaliseerde verfijningen kan uitvoeren. VideoRepair bestaat uit vier fasen: In (1) video-evaluatie detecteren we misalignments door fijnmazige evaluatievragen te genereren en die vragen te beantwoorden met MLLM. In (2) verfijningplanning identificeren we nauwkeurig gegenereerde objecten en creëren vervolgens gelokaliseerde prompts om andere gebieden in de video te verfijnen. Vervolgens, in (3) regio-decompositie, segmenteren we het correct gegenereerde gebied met behulp van een gecombineerde grounding-module. We regenereren de video door de misaligned regio's aan te passen terwijl we de correcte regio's behouden in (4) gelokaliseerde verfijning. Op twee populaire video-generatie benchmarks (EvalCrafter en T2V-CompBench) presteert VideoRepair aanzienlijk beter dan recente baselines over verschillende tekst-video alignment-metrics. We bieden een uitgebreide analyse van VideoRepair componenten en kwalitatieve voorbeelden.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.
PDF93November 25, 2024