InstructVideo: Инструкция для видео-диффузионных моделей с использованием обратной связи от человека
InstructVideo: Instructing Video Diffusion Models with Human Feedback
December 19, 2023
Авторы: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI
Аннотация
Диффузионные модели стали фактическим стандартом для генерации видео. Однако их зависимость от веб-масштабных данных различного качества часто приводит к визуально непривлекательным результатам, которые не соответствуют текстовым запросам. Для решения этой проблемы мы предлагаем InstructVideo — подход, который обучает текстово-видео диффузионные модели с использованием обратной связи от человека через тонкую настройку на основе вознаграждения. InstructVideo включает два ключевых компонента: 1) Чтобы снизить затраты на тонкую настройку, вызванные необходимостью полного прохода по цепочке DDIM-сэмплирования, мы переосмысливаем тонкую настройку как редактирование. Используя процесс диффузии для искажения сгенерированного видео, InstructVideo требует лишь частичного выполнения цепочки DDIM-сэмплирования, что снижает затраты и повышает эффективность настройки. 2) Для компенсации отсутствия специализированной модели вознаграждения для видео, учитывающей предпочтения человека, мы адаптируем существующие модели вознаграждения для изображений, такие как HPSv2. Для этого мы предлагаем Segmental Video Reward — механизм, предоставляющий сигналы вознаграждения на основе сегментного разреженного сэмплирования, и Temporally Attenuated Reward — метод, который смягчает ухудшение временного моделирования в процессе тонкой настройки. Многочисленные эксперименты, как качественные, так и количественные, подтверждают практичность и эффективность использования моделей вознаграждения для изображений в InstructVideo, значительно улучшая визуальное качество генерируемых видео без ущерба для обобщающей способности. Код и модели будут опубликованы в открытом доступе.
English
Diffusion models have emerged as the de facto paradigm for video generation.
However, their reliance on web-scale data of varied quality often yields
results that are visually unappealing and misaligned with the textual prompts.
To tackle this problem, we propose InstructVideo to instruct text-to-video
diffusion models with human feedback by reward fine-tuning. InstructVideo has
two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by
generating through the full DDIM sampling chain, we recast reward fine-tuning
as editing. By leveraging the diffusion process to corrupt a sampled video,
InstructVideo requires only partial inference of the DDIM sampling chain,
reducing fine-tuning cost while improving fine-tuning efficiency. 2) To
mitigate the absence of a dedicated video reward model for human preferences,
we repurpose established image reward models, e.g., HPSv2. To this end, we
propose Segmental Video Reward, a mechanism to provide reward signals based on
segmental sparse sampling, and Temporally Attenuated Reward, a method that
mitigates temporal modeling degradation during fine-tuning. Extensive
experiments, both qualitative and quantitative, validate the practicality and
efficacy of using image reward models in InstructVideo, significantly enhancing
the visual quality of generated videos without compromising generalization
capabilities. Code and models will be made publicly available.