ChatPaper.aiChatPaper

비디오수리: 오인을 통한 텍스트 대 비디오 생성의 향상 평가 및 지역화된 세부 조정

VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

November 22, 2024
저자: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

초록

최근 텍스트-비디오(T2V) 확산 모델들은 다양한 영역에서 인상적인 생성 능력을 보여주었습니다. 그러나 이러한 모델들은 종종 복수의 객체와 속성을 포함한 복잡한 장면을 설명하는 프롬프트와 맞지 않는 비디오를 생성합니다. 이를 해결하기 위해, 우리는 VideoRepair를 소개합니다. 이는 새로운 모델에 중립적이며 훈련이 필요 없는 비디오 정제 프레임워크로, 세밀한 텍스트-비디오 불일치를 자동으로 식별하고 명시적인 공간적 및 텍스트적 피드백을 생성하여 T2V 확산 모델이 특정하고 지역화된 정제를 수행할 수 있도록 합니다. VideoRepair는 네 단계로 구성됩니다: (1) 비디오 평가 단계에서는 MLLM을 사용하여 세밀한 평가 질문을 생성하고 답변하여 불일치를 감지합니다. (2) 정제 계획 단계에서는 정확하게 생성된 객체를 식별한 후 비디오의 다른 영역을 정제하기 위해 지역화된 프롬프트를 생성합니다. 그 다음, (3) 영역 분해 단계에서는 결합된 그라운딩 모듈을 사용하여 정확하게 생성된 영역을 분할합니다. 우리는 (4) 지역화된 정제에서 정렬되지 않은 영역을 조정하면서 올바른 영역을 보존하여 비디오를 재생성합니다. EvalCrafter 및 T2V-CompBench 두 가지 인기 있는 비디오 생성 벤치마크에서 VideoRepair는 다양한 텍스트-비디오 정렬 메트릭에서 최근의 기준 모델을 크게 능가합니다. VideoRepair 구성 요소와 질적 예제에 대한 포괄적인 분석을 제공합니다.
English
Recent text-to-video (T2V) diffusion models have demonstrated impressive generation capabilities across various domains. However, these models often generate videos that have misalignments with text prompts, especially when the prompts describe complex scenes with multiple objects and attributes. To address this, we introduce VideoRepair, a novel model-agnostic, training-free video refinement framework that automatically identifies fine-grained text-video misalignments and generates explicit spatial and textual feedback, enabling a T2V diffusion model to perform targeted, localized refinements. VideoRepair consists of four stages: In (1) video evaluation, we detect misalignments by generating fine-grained evaluation questions and answering those questions with MLLM. In (2) refinement planning, we identify accurately generated objects and then create localized prompts to refine other areas in the video. Next, in (3) region decomposition, we segment the correctly generated area using a combined grounding module. We regenerate the video by adjusting the misaligned regions while preserving the correct regions in (4) localized refinement. On two popular video generation benchmarks (EvalCrafter and T2V-CompBench), VideoRepair substantially outperforms recent baselines across various text-video alignment metrics. We provide a comprehensive analysis of VideoRepair components and qualitative examples.

Summary

AI-Generated Summary

PDF93November 25, 2024