InstructVideo: Anleitung von Video-Diffusionsmodellen mit menschlichem Feedback
InstructVideo: Instructing Video Diffusion Models with Human Feedback
December 19, 2023
Autoren: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI
Zusammenfassung
Diffusionsmodelle haben sich als de-facto-Paradigma für die Videogenerierung etabliert. Ihre Abhängigkeit von web-skaligen Daten unterschiedlicher Qualität führt jedoch oft zu visuell unattraktiven Ergebnissen, die nicht mit den textuellen Eingabeaufforderungen übereinstimmen. Um dieses Problem zu lösen, schlagen wir InstructVideo vor, um text-zu-video Diffusionsmodelle durch menschliches Feedback mittels Belohnungs-Finetuning zu instruieren. InstructVideo basiert auf zwei Schlüsselkomponenten: 1) Um die Kosten des Belohnungs-Finetunings, die durch die Generierung über die vollständige DDIM-Sampling-Kette entstehen, zu verringern, formulieren wir Belohnungs-Finetuning als Bearbeitungsprozess um. Indem wir den Diffusionsprozess nutzen, um ein gesampeltes Video zu korrumpieren, erfordert InstructVideo nur eine partielle Inferenz der DDIM-Sampling-Kette, was die Finetuning-Kosten reduziert und die Effizienz verbessert. 2) Um das Fehlen eines dedizierten Video-Belohnungsmodells für menschliche Präferenzen zu beheben, verwenden wir etablierte Bild-Belohnungsmodelle, z.B. HPSv2, um. Zu diesem Zweck schlagen wir das Segmental Video Reward vor, einen Mechanismus, der Belohnungssignale basierend auf segmentalem sparsamen Sampling liefert, sowie das Temporally Attenuated Reward, eine Methode, die die Verschlechterung der zeitlichen Modellierung während des Finetunings mildert. Umfangreiche Experimente, sowohl qualitativ als auch quantitativ, bestätigen die Praktikabilität und Wirksamkeit der Verwendung von Bild-Belohnungsmodellen in InstructVideo, wodurch die visuelle Qualität der generierten Videos erheblich verbessert wird, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Code und Modelle werden öffentlich zugänglich gemacht.
English
Diffusion models have emerged as the de facto paradigm for video generation.
However, their reliance on web-scale data of varied quality often yields
results that are visually unappealing and misaligned with the textual prompts.
To tackle this problem, we propose InstructVideo to instruct text-to-video
diffusion models with human feedback by reward fine-tuning. InstructVideo has
two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by
generating through the full DDIM sampling chain, we recast reward fine-tuning
as editing. By leveraging the diffusion process to corrupt a sampled video,
InstructVideo requires only partial inference of the DDIM sampling chain,
reducing fine-tuning cost while improving fine-tuning efficiency. 2) To
mitigate the absence of a dedicated video reward model for human preferences,
we repurpose established image reward models, e.g., HPSv2. To this end, we
propose Segmental Video Reward, a mechanism to provide reward signals based on
segmental sparse sampling, and Temporally Attenuated Reward, a method that
mitigates temporal modeling degradation during fine-tuning. Extensive
experiments, both qualitative and quantitative, validate the practicality and
efficacy of using image reward models in InstructVideo, significantly enhancing
the visual quality of generated videos without compromising generalization
capabilities. Code and models will be made publicly available.