ChatPaper.aiChatPaper

InstructVideo: Instrucción de Modelos de Difusión de Video con Retroalimentación Humana

InstructVideo: Instructing Video Diffusion Models with Human Feedback

December 19, 2023
Autores: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI

Resumen

Los modelos de difusión han surgido como el paradigma de facto para la generación de videos. Sin embargo, su dependencia de datos a escala web de calidad variada a menudo produce resultados visualmente poco atractivos y desalineados con las indicaciones textuales. Para abordar este problema, proponemos InstructVideo, un enfoque para instruir a los modelos de difusión de texto a video mediante ajuste fino basado en retroalimentación humana. InstructVideo tiene dos componentes clave: 1) Para mitigar el costo del ajuste fino inducido por la generación a través de la cadena completa de muestreo DDIM, reformulamos el ajuste fino como un proceso de edición. Al aprovechar el proceso de difusión para corromper un video muestreado, InstructVideo requiere solo una inferencia parcial de la cadena de muestreo DDIM, reduciendo el costo del ajuste fino y mejorando su eficiencia. 2) Para abordar la ausencia de un modelo de recompensa de video dedicado a las preferencias humanas, reutilizamos modelos de recompensa de imágenes establecidos, como HPSv2. Para ello, proponemos Recompensa de Video Segmentado, un mecanismo para proporcionar señales de recompensa basado en muestreo disperso segmentado, y Recompensa Atenuada Temporalmente, un método que mitiga la degradación del modelado temporal durante el ajuste fino. Experimentos extensos, tanto cualitativos como cuantitativos, validan la practicidad y eficacia de utilizar modelos de recompensa de imágenes en InstructVideo, mejorando significativamente la calidad visual de los videos generados sin comprometer las capacidades de generalización. El código y los modelos estarán disponibles públicamente.
English
Diffusion models have emerged as the de facto paradigm for video generation. However, their reliance on web-scale data of varied quality often yields results that are visually unappealing and misaligned with the textual prompts. To tackle this problem, we propose InstructVideo to instruct text-to-video diffusion models with human feedback by reward fine-tuning. InstructVideo has two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by generating through the full DDIM sampling chain, we recast reward fine-tuning as editing. By leveraging the diffusion process to corrupt a sampled video, InstructVideo requires only partial inference of the DDIM sampling chain, reducing fine-tuning cost while improving fine-tuning efficiency. 2) To mitigate the absence of a dedicated video reward model for human preferences, we repurpose established image reward models, e.g., HPSv2. To this end, we propose Segmental Video Reward, a mechanism to provide reward signals based on segmental sparse sampling, and Temporally Attenuated Reward, a method that mitigates temporal modeling degradation during fine-tuning. Extensive experiments, both qualitative and quantitative, validate the practicality and efficacy of using image reward models in InstructVideo, significantly enhancing the visual quality of generated videos without compromising generalization capabilities. Code and models will be made publicly available.
PDF181December 15, 2024