InstructVideo: Instrucción de Modelos de Difusión de Video con Retroalimentación Humana
InstructVideo: Instructing Video Diffusion Models with Human Feedback
December 19, 2023
Autores: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI
Resumen
Los modelos de difusión han surgido como el paradigma de facto para la generación de videos. Sin embargo, su dependencia de datos a escala web de calidad variada a menudo produce resultados visualmente poco atractivos y desalineados con las indicaciones textuales. Para abordar este problema, proponemos InstructVideo, un enfoque para instruir a los modelos de difusión de texto a video mediante ajuste fino basado en retroalimentación humana. InstructVideo tiene dos componentes clave: 1) Para mitigar el costo del ajuste fino inducido por la generación a través de la cadena completa de muestreo DDIM, reformulamos el ajuste fino como un proceso de edición. Al aprovechar el proceso de difusión para corromper un video muestreado, InstructVideo requiere solo una inferencia parcial de la cadena de muestreo DDIM, reduciendo el costo del ajuste fino y mejorando su eficiencia. 2) Para abordar la ausencia de un modelo de recompensa de video dedicado a las preferencias humanas, reutilizamos modelos de recompensa de imágenes establecidos, como HPSv2. Para ello, proponemos Recompensa de Video Segmentado, un mecanismo para proporcionar señales de recompensa basado en muestreo disperso segmentado, y Recompensa Atenuada Temporalmente, un método que mitiga la degradación del modelado temporal durante el ajuste fino. Experimentos extensos, tanto cualitativos como cuantitativos, validan la practicidad y eficacia de utilizar modelos de recompensa de imágenes en InstructVideo, mejorando significativamente la calidad visual de los videos generados sin comprometer las capacidades de generalización. El código y los modelos estarán disponibles públicamente.
English
Diffusion models have emerged as the de facto paradigm for video generation.
However, their reliance on web-scale data of varied quality often yields
results that are visually unappealing and misaligned with the textual prompts.
To tackle this problem, we propose InstructVideo to instruct text-to-video
diffusion models with human feedback by reward fine-tuning. InstructVideo has
two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by
generating through the full DDIM sampling chain, we recast reward fine-tuning
as editing. By leveraging the diffusion process to corrupt a sampled video,
InstructVideo requires only partial inference of the DDIM sampling chain,
reducing fine-tuning cost while improving fine-tuning efficiency. 2) To
mitigate the absence of a dedicated video reward model for human preferences,
we repurpose established image reward models, e.g., HPSv2. To this end, we
propose Segmental Video Reward, a mechanism to provide reward signals based on
segmental sparse sampling, and Temporally Attenuated Reward, a method that
mitigates temporal modeling degradation during fine-tuning. Extensive
experiments, both qualitative and quantitative, validate the practicality and
efficacy of using image reward models in InstructVideo, significantly enhancing
the visual quality of generated videos without compromising generalization
capabilities. Code and models will be made publicly available.