ChatPaper.aiChatPaper

VideoRepair : Amélioration de la génération de texte en vidéo via l'évaluation des décalages et le raffinement localisé.

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

November 22, 2024
Auteurs: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Résumé

Les modèles récents de diffusion texte-vidéo (T2V) ont démontré des capacités de génération impressionnantes dans divers domaines. Cependant, ces modèles génèrent souvent des vidéos avec des désalignements par rapport aux instructions textuelles, notamment lorsque les instructions décrivent des scènes complexes avec plusieurs objets et attributs. Pour remédier à cela, nous présentons VideoRepair, un nouveau cadre de raffinement vidéo indépendant du modèle et sans entraînement, qui identifie automatiquement les désalignements fins entre texte et vidéo et génère des retours spatiaux et textuels explicites, permettant à un modèle de diffusion T2V d'effectuer des raffinements ciblés et localisés. VideoRepair se compose de quatre étapes : (1) évaluation vidéo, où nous détectons les désalignements en générant des questions d'évaluation fines et en y répondant avec MLLM. (2) planification du raffinement, où nous identifions les objets générés avec précision, puis créons des instructions localisées pour raffiner d'autres zones de la vidéo. Ensuite, (3) décomposition de la région, où nous segmentons la zone correctement générée à l'aide d'un module de mise en correspondance combiné. Nous régénérons la vidéo en ajustant les régions désalignées tout en préservant les régions correctes dans (4) le raffinement localisé. Sur deux bancs d'essai populaires de génération vidéo (EvalCrafter et T2V-CompBench), VideoRepair surpasse largement les références récentes en termes de diverses mesures d'alignement texte-vidéo. Nous fournissons une analyse complète des composants de VideoRepair et des exemples qualitatifs.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.

Summary

AI-Generated Summary

PDF93November 25, 2024