ChatPaper.aiChatPaper

VideoRepair: Melhorando a Geração de Texto para Vídeo através da Avaliação de Desalinhamento e Refinamento Localizado

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

November 22, 2024
Autores: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Resumo

Os modelos recentes de difusão texto-para-vídeo (T2V) têm demonstrado impressionantes capacidades de geração em diversos domínios. No entanto, esses modelos frequentemente geram vídeos com desalinhamentos em relação às instruções de texto, especialmente quando as instruções descrevem cenas complexas com múltiplos objetos e atributos. Para lidar com isso, apresentamos o VideoRepair, um novo framework de refinamento de vídeo, independente de modelo e sem necessidade de treinamento, que identifica automaticamente desalinhamentos detalhados entre texto e vídeo e gera feedback espacial e textual explícito, permitindo que um modelo de difusão T2V realize refinamentos direcionados e localizados. O VideoRepair é composto por quatro etapas: Na (1) avaliação de vídeo, detectamos desalinhamentos gerando perguntas de avaliação detalhadas e respondendo a essas perguntas com MLLM. Na (2) planejamento de refinamento, identificamos objetos gerados com precisão e então criamos instruções localizadas para refinar outras áreas no vídeo. Em seguida, na (3) decomposição de região, segmentamos a área gerada corretamente usando um módulo de ancoragem combinado. Regeneramos o vídeo ajustando as regiões desalinhadas enquanto preservamos as regiões corretas em (4) refinamento localizado. Em dois benchmarks populares de geração de vídeo (EvalCrafter e T2V-CompBench), o VideoRepair supera substancialmente baselines recentes em diversas métricas de alinhamento texto-vídeo. Fornecemos uma análise abrangente dos componentes do VideoRepair e exemplos qualitativos.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.

Summary

AI-Generated Summary

PDF93November 25, 2024