ChatPaper.aiChatPaper

T2V-Turbo-v2: 데이터, 보상 및 조건 지도 설계를 통해 비디오 생성 모델의 사후 훈련 강화

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

October 8, 2024
저자: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI

초록

본 논문에서는 사전 훈련된 T2V 모델로부터 뛰어난 능력의 일관성 모델을 증류하여 사후 훈련 단계에서 확산 기반 텍스트-비디오 (T2V) 모델을 향상시키는 데 초점을 맞추었습니다. 우리가 제안하는 T2V-Turbo-v2 방법은 고품질 훈련 데이터, 보상 모델 피드백, 조건 지침을 일관성 증류 과정에 통합함으로써 중요한 발전을 이루었습니다. 포괄적인 제거 연구를 통해 데이터셋을 특정 학습 목표에 맞게 맞춤화하는 중요성과 시각적 품질 및 텍스트-비디오 정렬 향상을 위해 다양한 보상 모델로부터 학습하는 효과를 강조했습니다. 또한 효과적인 에너지 함수를 설계하여 선생님 ODE 솔버를 보강하는 조건부 지침 전략의 방대한 설계 공간을 강조했습니다. 우리는 이 접근 방식의 잠재력을 보여주기 위해 훈련 데이터셋으로부터 동작 지침을 추출하고 ODE 솔버에 통합하여 생성된 비디오의 동작 품질을 향상시키는 데 효과적임을 보여주었습니다. VBench 및 T2V-CompBench의 개선된 동작 관련 메트릭을 통해 이를 입증했습니다. 경험적으로, 우리의 T2V-Turbo-v2는 VBench에서 85.13의 총점을 기록하여 Gen-3 및 Kling과 같은 소유 시스템을 능가하는 최신 기술 성과를 달성했습니다.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V) model during the post-training phase by distilling a highly capable consistency model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2, introduces a significant advancement by integrating various supervision signals, including high-quality training data, reward model feedback, and conditional guidance, into the consistency distillation process. Through comprehensive ablation studies, we highlight the crucial importance of tailoring datasets to specific learning objectives and the effectiveness of learning from diverse reward models for enhancing both the visual quality and text-video alignment. Additionally, we highlight the vast design space of conditional guidance strategies, which centers on designing an effective energy function to augment the teacher ODE solver. We demonstrate the potential of this approach by extracting motion guidance from the training datasets and incorporating it into the ODE solver, showcasing its effectiveness in improving the motion quality of the generated videos with the improved motion-related metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2 establishes a new state-of-the-art result on VBench, with a Total score of 85.13, surpassing proprietary systems such as Gen-3 and Kling.

Summary

AI-Generated Summary

PDF142November 16, 2024