LiFT: テキストからビデオモデルの整合性向上のための人間のフィードバックの活用
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
December 6, 2024
著者: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI
要旨
最近のテキストからビデオ(T2V)生成モデルの進歩は、印象的な能力を示しています。しかし、これらのモデルは、合成されたビデオを人間の好みに適合させる点でまだ不十分であり(例:テキストの記述を正確に反映する)、これは特に難しい課題であり、人間の好みは本質的に主観的であり、客観的な関数として形式化することが困難です。したがって、本論文では、T2Vモデルの整合性を向上させるために人間のフィードバックを活用する新しい微調整手法であるLiFTを提案しています。具体的には、まず、約10,000の人間の注釈を含むLiFT-HRAという人間評価注釈データセットを構築します。これに基づいて、報酬モデルLiFT-Criticをトレーニングして報酬関数を効果的に学習し、これは人間の判断の代理として機能し、与えられたビデオと人間の期待との整合性を測定します。最後に、学習された報酬関数を活用して、報酬重み付き尤度を最大化することでT2Vモデルを整合させます。ケーススタディとして、CogVideoX-2Bに当社のパイプラインを適用し、微調整されたモデルが16のすべてのメトリクスでCogVideoX-5Bを上回ることを示し、合成されたビデオの整合性と品質を向上させるために人間のフィードバックの潜在能力を強調しています。
English
Recent advancements in text-to-video (T2V) generative models have shown
impressive capabilities. However, these models are still inadequate in aligning
synthesized videos with human preferences (e.g., accurately reflecting text
descriptions), which is particularly difficult to address, as human preferences
are inherently subjective and challenging to formalize as objective functions.
Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging
human feedback for T2V model alignment. Specifically, we first construct a
Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k
human annotations, each including a score and its corresponding rationale.
Based on this, we train a reward model LiFT-Critic to learn reward function
effectively, which serves as a proxy for human judgment, measuring the
alignment between given videos and human expectations. Lastly, we leverage the
learned reward function to align the T2V model by maximizing the
reward-weighted likelihood. As a case study, we apply our pipeline to
CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B
across all 16 metrics, highlighting the potential of human feedback in
improving the alignment and quality of synthesized videos.Summary
AI-Generated Summary