VideoRepair: Улучшение генерации видео по тексту с помощью оценки смещения и локальной доработки
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement
November 22, 2024
Авторы: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Аннотация
Недавние модели диффузии текста в видео (T2V) продемонстрировали впечатляющие возможности генерации в различных областях. Однако эти модели часто создают видео с несоответствиями текстовым подсказкам, особенно когда подсказки описывают сложные сцены с несколькими объектами и атрибутами. Для решения этой проблемы мы представляем VideoRepair, новую модель-агностическую, не требующую обучения, структуру улучшения видео, которая автоматически определяет мелкие несоответствия текста и видео и генерирует явные пространственные и текстовые обратные связи, позволяя модели диффузии T2V выполнять целевые локализованные улучшения. VideoRepair состоит из четырех этапов: на (1) оценке видео мы обнаруживаем несоответствия, генерируя детализированные вопросы оценки и отвечая на них с помощью MLLM. На (2) планировании улучшений мы идентифицируем точно сгенерированные объекты и затем создаем локализованные подсказки для улучшения других областей в видео. Затем на (3) декомпозиции регионов мы сегментируем правильно сгенерированную область с помощью объединенного модуля опоры. Мы воссоздаем видео, корректируя несоответствующие регионы, сохраняя при этом правильные регионы на (4) локализованном улучшении. На двух популярных бенчмарках генерации видео (EvalCrafter и T2V-CompBench) VideoRepair значительно превосходит недавние базовые уровни по различным метрикам выравнивания текста и видео. Мы предоставляем всесторонний анализ компонентов VideoRepair и качественные примеры.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive
generation capabilities across various domains. However, these models often
generate videos that have misalignments with text prompts, especially when the
prompts describe complex scenes with multiple objects and attributes. To
address this, we introduce VideoRepair, a novel model-agnostic, training-free
video refinement framework that automatically identifies fine-grained
text-video misalignments and generates explicit spatial and textual feedback,
enabling a T2V diffusion model to perform targeted, localized refinements.
VideoRepair consists of four stages: In (1) video evaluation, we detect
misalignments by generating fine-grained evaluation questions and answering
those questions with MLLM. In (2) refinement planning, we identify accurately
generated objects and then create localized prompts to refine other areas in
the video. Next, in (3) region decomposition, we segment the correctly
generated area using a combined grounding module. We regenerate the video by
adjusting the misaligned regions while preserving the correct regions in (4)
localized refinement. On two popular video generation benchmarks (EvalCrafter
and T2V-CompBench), VideoRepair substantially outperforms recent baselines
across various text-video alignment metrics. We provide a comprehensive
analysis of VideoRepair components and qualitative examples.Summary
AI-Generated Summary