ChatPaper.aiChatPaper

LiFT: Aproveitando o Feedback Humano para Alinhamento de Modelos de Texto para Vídeo

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

December 6, 2024
Autores: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI

Resumo

Os avanços recentes em modelos generativos de texto-para-vídeo (T2V) têm demonstrado capacidades impressionantes. No entanto, esses modelos ainda são inadequados para alinhar vídeos sintetizados com as preferências humanas (por exemplo, refletir com precisão descrições de texto), o que é particularmente difícil de abordar, uma vez que as preferências humanas são inerentemente subjetivas e desafiadoras de formalizar como funções objetivas. Portanto, este artigo propõe o LiFT, um novo método de ajuste fino que aproveita o feedback humano para o alinhamento do modelo T2V. Especificamente, primeiro construímos um conjunto de dados de Anotações de Avaliação Humana, LiFT-HRA, composto por aproximadamente 10 mil anotações humanas, cada uma incluindo uma pontuação e sua justificativa correspondente. Com base nisso, treinamos um modelo de recompensa LiFT-Critic para aprender efetivamente a função de recompensa, que serve como um proxy para o julgamento humano, medindo o alinhamento entre os vídeos fornecidos e as expectativas humanas. Por fim, aproveitamos a função de recompensa aprendida para alinhar o modelo T2V maximizando a probabilidade ponderada pela recompensa. Como estudo de caso, aplicamos nosso pipeline ao CogVideoX-2B, mostrando que o modelo ajustado supera o CogVideoX-5B em todas as 16 métricas, destacando o potencial do feedback humano na melhoria do alinhamento e qualidade dos vídeos sintetizados.
English
Recent advancements in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are inherently subjective and challenging to formalize as objective functions. Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.

Summary

AI-Generated Summary

PDF493December 9, 2024