ChatPaper.aiChatPaper

T2V-Turbo: 혼합 보상 피드백을 통한 비디오 일관성 모델의 품질 병목 현상 극복

T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback

May 29, 2024
저자: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI

초록

디퓨전 기반 텍스트-투-비디오(T2V) 모델은 상당한 성공을 거두었지만, 반복적인 샘플링 과정의 느린 속도로 인해 여전히 제약을 받고 있습니다. 이러한 문제를 해결하기 위해 빠른 추론을 가능하게 하는 일관성 모델(consistency model)이 제안되었으나, 샘플 품질이 저하되는 단점이 있었습니다. 본 연구에서는 비디오 일관성 모델(VCM)의 품질 병목 현상을 극복하여 빠르면서도 고품질의 비디오 생성을 달성하고자 합니다. 이를 위해 사전 학습된 T2V 모델의 일관성 증류(CD) 과정에 미분 가능한 보상 모델들의 피드백을 통합한 T2V-Turbo를 소개합니다. 특히, CD 손실 계산에서 자연스럽게 발생하는 단일 단계 생성과 관련된 보상을 직접 최적화함으로써, 반복적 샘플링 과정을 통해 역전파 그래디언트를 계산할 때 발생하는 메모리 제약을 효과적으로 우회합니다. 놀랍게도, T2V-Turbo의 4단계 생성은 VBench에서 가장 높은 총점을 기록하며, Gen-2와 Pika를 능가했습니다. 추가적으로 인간 평가를 통해 결과를 검증한 결과, T2V-Turbo의 4단계 생성이 교사 모델의 50단계 DDIM 샘플보다 선호되는 것으로 나타났으며, 이는 10배 이상의 가속화를 달성하면서도 비디오 생성 품질을 개선한 것을 의미합니다.
English
Diffusion-based text-to-video (T2V) models have achieved significant success but continue to be hampered by the slow sampling speed of their iterative sampling processes. To address the challenge, consistency models have been proposed to facilitate fast inference, albeit at the cost of sample quality. In this work, we aim to break the quality bottleneck of a video consistency model (VCM) to achieve both fast and high-quality video generation. We introduce T2V-Turbo, which integrates feedback from a mixture of differentiable reward models into the consistency distillation (CD) process of a pre-trained T2V model. Notably, we directly optimize rewards associated with single-step generations that arise naturally from computing the CD loss, effectively bypassing the memory constraints imposed by backpropagating gradients through an iterative sampling process. Remarkably, the 4-step generations from our T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and Pika. We further conduct human evaluations to corroborate the results, validating that the 4-step generations from our T2V-Turbo are preferred over the 50-step DDIM samples from their teacher models, representing more than a tenfold acceleration while improving video generation quality.

Summary

AI-Generated Summary

PDF221December 12, 2024