InstructVideo : Guider les modèles de diffusion vidéo avec des retours humains
InstructVideo: Instructing Video Diffusion Models with Human Feedback
December 19, 2023
Auteurs: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI
Résumé
Les modèles de diffusion sont devenus le paradigme de facto pour la génération de vidéos. Cependant, leur dépendance à des données à l'échelle du web de qualité variable produit souvent des résultats visuellement peu attrayants et mal alignés avec les prompts textuels. Pour résoudre ce problème, nous proposons InstructVideo, une méthode visant à guider les modèles de diffusion texte-à-vidéo grâce à un feedback humain via un fine-tuning par récompense. InstructVideo repose sur deux éléments clés : 1) Pour réduire le coût du fine-tuning par récompense induit par la génération à travers la chaîne complète d'échantillonnage DDIM, nous reformulons ce fine-tuning comme un processus d'édition. En exploitant le processus de diffusion pour corrompre une vidéo échantillonnée, InstructVideo ne nécessite qu'une inférence partielle de la chaîne d'échantillonnage DDIM, réduisant ainsi le coût tout en améliorant l'efficacité du fine-tuning. 2) Pour pallier l'absence d'un modèle de récompense vidéo dédié aux préférences humaines, nous réutilisons des modèles de récompense d'image établis, tels que HPSv2. À cette fin, nous proposons le Segmental Video Reward, un mécanisme fournissant des signaux de récompense basés sur un échantillonnage segmenté et parcimonieux, ainsi que le Temporally Attenuated Reward, une méthode atténuant la dégradation de la modélisation temporelle lors du fine-tuning. Des expériences approfondies, tant qualitatives que quantitatives, valident la praticabilité et l'efficacité de l'utilisation de modèles de récompense d'image dans InstructVideo, améliorant significativement la qualité visuelle des vidéos générées sans compromettre les capacités de généralisation. Le code et les modèles seront rendus publics.
English
Diffusion models have emerged as the de facto paradigm for video generation.
However, their reliance on web-scale data of varied quality often yields
results that are visually unappealing and misaligned with the textual prompts.
To tackle this problem, we propose InstructVideo to instruct text-to-video
diffusion models with human feedback by reward fine-tuning. InstructVideo has
two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by
generating through the full DDIM sampling chain, we recast reward fine-tuning
as editing. By leveraging the diffusion process to corrupt a sampled video,
InstructVideo requires only partial inference of the DDIM sampling chain,
reducing fine-tuning cost while improving fine-tuning efficiency. 2) To
mitigate the absence of a dedicated video reward model for human preferences,
we repurpose established image reward models, e.g., HPSv2. To this end, we
propose Segmental Video Reward, a mechanism to provide reward signals based on
segmental sparse sampling, and Temporally Attenuated Reward, a method that
mitigates temporal modeling degradation during fine-tuning. Extensive
experiments, both qualitative and quantitative, validate the practicality and
efficacy of using image reward models in InstructVideo, significantly enhancing
the visual quality of generated videos without compromising generalization
capabilities. Code and models will be made publicly available.