VideoRepair: Mejorando la Generación de Texto a Video a través de la Evaluación de Desalineación y Refinamiento Localizado
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
November 22, 2024
Autores: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Resumen
Los modelos de difusión texto-a-video (T2V) recientes han demostrado impresionantes capacidades de generación en diversos dominios. Sin embargo, estos modelos a menudo generan videos con desalineaciones respecto a las indicaciones de texto, especialmente cuando las indicaciones describen escenas complejas con múltiples objetos y atributos. Para abordar esto, presentamos VideoRepair, un novedoso marco de refinamiento de video independiente del modelo y sin necesidad de entrenamiento, que identifica automáticamente desalineaciones detalladas entre texto y video, y genera retroalimentación espacial y textual explícita, permitiendo que un modelo de difusión T2V realice refinamientos localizados y específicos. VideoRepair consta de cuatro etapas: En (1) evaluación de video, detectamos desalineaciones generando preguntas de evaluación detalladas y respondiéndolas con MLLM. En (2) planificación de refinamiento, identificamos objetos generados con precisión y luego creamos indicaciones localizadas para refinar otras áreas en el video. Luego, en (3) descomposición de regiones, segmentamos el área generada correctamente utilizando un módulo de anclaje combinado. Regeneramos el video ajustando las regiones desalineadas mientras preservamos las regiones correctas en (4) refinamiento localizado. En dos populares bancos de pruebas de generación de video (EvalCrafter y T2V-CompBench), VideoRepair supera sustancialmente a los puntos de referencia recientes en diversas métricas de alineación texto-video. Proporcionamos un análisis exhaustivo de los componentes de VideoRepair y ejemplos cualitativos.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive
generation capabilities across various domains. However, these models often
generate videos that have misalignments with text prompts, especially when the
prompts describe complex scenes with multiple objects and attributes. To
address this, we introduce VideoRepair, a novel model-agnostic, training-free
video refinement framework that automatically identifies fine-grained
text-video misalignments and generates explicit spatial and textual feedback,
enabling a T2V diffusion model to perform targeted, localized refinements.
VideoRepair consists of four stages: In (1) video evaluation, we detect
misalignments by generating fine-grained evaluation questions and answering
those questions with MLLM. In (2) refinement planning, we identify accurately
generated objects and then create localized prompts to refine other areas in
the video. Next, in (3) region decomposition, we segment the correctly
generated area using a combined grounding module. We regenerate the video by
adjusting the misaligned regions while preserving the correct regions in (4)
localized refinement. On two popular video generation benchmarks (EvalCrafter
and T2V-CompBench), VideoRepair substantially outperforms recent baselines
across various text-video alignment metrics. We provide a comprehensive
analysis of VideoRepair components and qualitative examples.Summary
AI-Generated Summary