ChatPaper.aiChatPaper

InstructVideo : Guider les modèles de diffusion vidéo avec des retours humains

InstructVideo: Instructing Video Diffusion Models with Human Feedback

December 19, 2023
Auteurs: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI

Résumé

Les modèles de diffusion sont devenus le paradigme de facto pour la génération de vidéos. Cependant, leur dépendance à des données à l'échelle du web de qualité variable produit souvent des résultats visuellement peu attrayants et mal alignés avec les prompts textuels. Pour résoudre ce problème, nous proposons InstructVideo, une méthode visant à guider les modèles de diffusion texte-à-vidéo grâce à un feedback humain via un fine-tuning par récompense. InstructVideo repose sur deux éléments clés : 1) Pour réduire le coût du fine-tuning par récompense induit par la génération à travers la chaîne complète d'échantillonnage DDIM, nous reformulons ce fine-tuning comme un processus d'édition. En exploitant le processus de diffusion pour corrompre une vidéo échantillonnée, InstructVideo ne nécessite qu'une inférence partielle de la chaîne d'échantillonnage DDIM, réduisant ainsi le coût tout en améliorant l'efficacité du fine-tuning. 2) Pour pallier l'absence d'un modèle de récompense vidéo dédié aux préférences humaines, nous réutilisons des modèles de récompense d'image établis, tels que HPSv2. À cette fin, nous proposons le Segmental Video Reward, un mécanisme fournissant des signaux de récompense basés sur un échantillonnage segmenté et parcimonieux, ainsi que le Temporally Attenuated Reward, une méthode atténuant la dégradation de la modélisation temporelle lors du fine-tuning. Des expériences approfondies, tant qualitatives que quantitatives, valident la praticabilité et l'efficacité de l'utilisation de modèles de récompense d'image dans InstructVideo, améliorant significativement la qualité visuelle des vidéos générées sans compromettre les capacités de généralisation. Le code et les modèles seront rendus publics.
English
Diffusion models have emerged as the de facto paradigm for video generation. However, their reliance on web-scale data of varied quality often yields results that are visually unappealing and misaligned with the textual prompts. To tackle this problem, we propose InstructVideo to instruct text-to-video diffusion models with human feedback by reward fine-tuning. InstructVideo has two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by generating through the full DDIM sampling chain, we recast reward fine-tuning as editing. By leveraging the diffusion process to corrupt a sampled video, InstructVideo requires only partial inference of the DDIM sampling chain, reducing fine-tuning cost while improving fine-tuning efficiency. 2) To mitigate the absence of a dedicated video reward model for human preferences, we repurpose established image reward models, e.g., HPSv2. To this end, we propose Segmental Video Reward, a mechanism to provide reward signals based on segmental sparse sampling, and Temporally Attenuated Reward, a method that mitigates temporal modeling degradation during fine-tuning. Extensive experiments, both qualitative and quantitative, validate the practicality and efficacy of using image reward models in InstructVideo, significantly enhancing the visual quality of generated videos without compromising generalization capabilities. Code and models will be made publicly available.
PDF181December 15, 2024