InstructVideo: Anleitung von Video-Diffusionsmodellen mit menschlichem Feedback

papers.abstract

Diffusionsmodelle haben sich als de-facto-Paradigma für die Videogenerierung etabliert. Ihre Abhängigkeit von web-skaligen Daten unterschiedlicher Qualität führt jedoch oft zu visuell unattraktiven Ergebnissen, die nicht mit den textuellen Eingabeaufforderungen übereinstimmen. Um dieses Problem zu lösen, schlagen wir InstructVideo vor, um text-zu-video Diffusionsmodelle durch menschliches Feedback mittels Belohnungs-Finetuning zu instruieren. InstructVideo basiert auf zwei Schlüsselkomponenten: 1) Um die Kosten des Belohnungs-Finetunings, die durch die Generierung über die vollständige DDIM-Sampling-Kette entstehen, zu verringern, formulieren wir Belohnungs-Finetuning als Bearbeitungsprozess um. Indem wir den Diffusionsprozess nutzen, um ein gesampeltes Video zu korrumpieren, erfordert InstructVideo nur eine partielle Inferenz der DDIM-Sampling-Kette, was die Finetuning-Kosten reduziert und die Effizienz verbessert. 2) Um das Fehlen eines dedizierten Video-Belohnungsmodells für menschliche Präferenzen zu beheben, verwenden wir etablierte Bild-Belohnungsmodelle, z.B. HPSv2, um. Zu diesem Zweck schlagen wir das Segmental Video Reward vor, einen Mechanismus, der Belohnungssignale basierend auf segmentalem sparsamen Sampling liefert, sowie das Temporally Attenuated Reward, eine Methode, die die Verschlechterung der zeitlichen Modellierung während des Finetunings mildert. Umfangreiche Experimente, sowohl qualitativ als auch quantitativ, bestätigen die Praktikabilität und Wirksamkeit der Verwendung von Bild-Belohnungsmodellen in InstructVideo, wodurch die visuelle Qualität der generierten Videos erheblich verbessert wird, ohne die Generalisierungsfähigkeit zu beeinträchtigen. Code und Modelle werden öffentlich zugänglich gemacht.

English

Diffusion models have emerged as the de facto paradigm for video generation. However, their reliance on web-scale data of varied quality often yields results that are visually unappealing and misaligned with the textual prompts. To tackle this problem, we propose InstructVideo to instruct text-to-video diffusion models with human feedback by reward fine-tuning. InstructVideo has two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by generating through the full DDIM sampling chain, we recast reward fine-tuning as editing. By leveraging the diffusion process to corrupt a sampled video, InstructVideo requires only partial inference of the DDIM sampling chain, reducing fine-tuning cost while improving fine-tuning efficiency. 2) To mitigate the absence of a dedicated video reward model for human preferences, we repurpose established image reward models, e.g., HPSv2. To this end, we propose Segmental Video Reward, a mechanism to provide reward signals based on segmental sparse sampling, and Temporally Attenuated Reward, a method that mitigates temporal modeling degradation during fine-tuning. Extensive experiments, both qualitative and quantitative, validate the practicality and efficacy of using image reward models in InstructVideo, significantly enhancing the visual quality of generated videos without compromising generalization capabilities. Code and models will be made publicly available.

InstructVideo: Anleitung von Video-Diffusionsmodellen mit menschlichem Feedback

InstructVideo: Instructing Video Diffusion Models with Human Feedback

papers.abstract

Support