LiFT: Aproveitando o Feedback Humano para Alinhamento de Modelos de Texto para Vídeo
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
December 6, 2024
Autores: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI
Resumo
Os avanços recentes em modelos generativos de texto-para-vídeo (T2V) têm demonstrado capacidades impressionantes. No entanto, esses modelos ainda são inadequados para alinhar vídeos sintetizados com as preferências humanas (por exemplo, refletir com precisão descrições de texto), o que é particularmente difícil de abordar, uma vez que as preferências humanas são inerentemente subjetivas e desafiadoras de formalizar como funções objetivas. Portanto, este artigo propõe o LiFT, um novo método de ajuste fino que aproveita o feedback humano para o alinhamento do modelo T2V. Especificamente, primeiro construímos um conjunto de dados de Anotações de Avaliação Humana, LiFT-HRA, composto por aproximadamente 10 mil anotações humanas, cada uma incluindo uma pontuação e sua justificativa correspondente. Com base nisso, treinamos um modelo de recompensa LiFT-Critic para aprender efetivamente a função de recompensa, que serve como um proxy para o julgamento humano, medindo o alinhamento entre os vídeos fornecidos e as expectativas humanas. Por fim, aproveitamos a função de recompensa aprendida para alinhar o modelo T2V maximizando a probabilidade ponderada pela recompensa. Como estudo de caso, aplicamos nosso pipeline ao CogVideoX-2B, mostrando que o modelo ajustado supera o CogVideoX-5B em todas as 16 métricas, destacando o potencial do feedback humano na melhoria do alinhamento e qualidade dos vídeos sintetizados.
English
Recent advancements in text-to-video (T2V) generative models have shown
impressive capabilities. However, these models are still inadequate in aligning
synthesized videos with human preferences (e.g., accurately reflecting text
descriptions), which is particularly difficult to address, as human preferences
are inherently subjective and challenging to formalize as objective functions.
Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging
human feedback for T2V model alignment. Specifically, we first construct a
Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k
human annotations, each including a score and its corresponding rationale.
Based on this, we train a reward model LiFT-Critic to learn reward function
effectively, which serves as a proxy for human judgment, measuring the
alignment between given videos and human expectations. Lastly, we leverage the
learned reward function to align the T2V model by maximizing the
reward-weighted likelihood. As a case study, we apply our pipeline to
CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B
across all 16 metrics, highlighting the potential of human feedback in
improving the alignment and quality of synthesized videos.Summary
AI-Generated Summary