FancyVideo: 교차 프레임 텍스트 안내를 통한 동적이고 일관된 비디오 생성을 향하여
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
August 15, 2024
저자: Jiasong Feng, Ao Ma, Jing Wang, Bo Cheng, Xiaodan Liang, Dawei Leng, Yuhui Yin
cs.AI
초록
동적이고 시간적으로 일관된 비디오를 합성하는 것은 인공지능에서 여전히 어려운 과제입니다, 특히 긴 기간을 다룰 때. 기존의 텍스트 대 비디오 (T2V) 모델은 일반적으로 공간 교차-주의를 사용하여 텍스트 제어를 하며, 이는 각 프레임에 대한 구체적인 텍스트 지침 없이 서로 다른 프레임 생성을 안내합니다. 따라서 프롬프트에서 전달되는 시간 논리를 이해하고 일관된 움직임을 갖는 비디오를 생성하는 모델의 능력이 제한됩니다. 이 제한을 극복하기 위해, 우리는 기존의 텍스트 제어 메커니즘을 개선하는 혁신적인 비디오 생성기인 FancyVideo를 소개합니다. 이를 위해, CTGM(Cross-frame Textual Guidance Module)이라는 잘 설계된 모듈을 도입합니다. 구체적으로, CTGM은 교차-주의의 시작, 중간 및 끝에 각각 시간적 정보 주입기(TII), 시간적 유사성 정제기(TAR) 및 시간적 특징 부스터(TFB)를 통합하여 프레임별 텍스트 지침을 달성합니다. 먼저, TII는 잠재적 특징에서 프레임별 정보를 텍스트 조건으로 주입하여 교차 프레임 텍스트 조건을 얻습니다. 그런 다음, TAR은 시간 차원을 따라 교차 프레임 텍스트 조건과 잠재적 특징 사이의 상관 행렬을 정제합니다. 마지막으로, TFB는 잠재적 특징의 시간적 일관성을 향상시킵니다. 평가를 포함한 포괄적인 실험 결과는 FancyVideo의 효과를 입증합니다. 저희 방법은 EvalCrafter 벤치마크에서 최첨단 T2V 생성 결과를 달성하며, 동적이고 일관된 비디오의 합성을 용이하게 합니다. 비디오 결과물은 https://fancyvideo.github.io/에서 확인할 수 있으며, 코드와 모델 가중치를 공개적으로 제공할 예정입니다.
English
Synthesizing motion-rich and temporally consistent videos remains a challenge
in artificial intelligence, especially when dealing with extended durations.
Existing text-to-video (T2V) models commonly employ spatial cross-attention for
text control, equivalently guiding different frame generations without
frame-specific textual guidance. Thus, the model's capacity to comprehend the
temporal logic conveyed in prompts and generate videos with coherent motion is
restricted. To tackle this limitation, we introduce FancyVideo, an innovative
video generator that improves the existing text-control mechanism with the
well-designed Cross-frame Textual Guidance Module (CTGM). Specifically, CTGM
incorporates the Temporal Information Injector (TII), Temporal Affinity Refiner
(TAR), and Temporal Feature Booster (TFB) at the beginning, middle, and end of
cross-attention, respectively, to achieve frame-specific textual guidance.
Firstly, TII injects frame-specific information from latent features into text
conditions, thereby obtaining cross-frame textual conditions. Then, TAR refines
the correlation matrix between cross-frame textual conditions and latent
features along the time dimension. Lastly, TFB boosts the temporal consistency
of latent features. Extensive experiments comprising both quantitative and
qualitative evaluations demonstrate the effectiveness of FancyVideo. Our
approach achieves state-of-the-art T2V generation results on the EvalCrafter
benchmark and facilitates the synthesis of dynamic and consistent videos. The
video show results can be available at https://fancyvideo.github.io/, and we
will make our code and model weights publicly available.Summary
AI-Generated Summary