InstructVideo: 인간 피드백을 활용한 비디오 확산 모델 지시 학습
InstructVideo: Instructing Video Diffusion Models with Human Feedback
December 19, 2023
저자: Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni
cs.AI
초록
디퓨전 모델은 비디오 생성의 사실상 표준 패러다임으로 부상했습니다. 그러나 웹 규모의 다양한 품질 데이터에 의존하기 때문에 종종 시각적으로 매력적이지 않고 텍스트 프롬프트와 일치하지 않는 결과를 생성합니다. 이 문제를 해결하기 위해, 우리는 인간 피드백을 통해 텍스트-투-비디오 디퓨전 모델을 지시하는 InstructVideo를 제안합니다. InstructVideo는 두 가지 핵심 요소를 가지고 있습니다: 1) 전체 DDIM 샘플링 체인을 통한 생성으로 인한 보상 미세 조정의 비용을 완화하기 위해, 우리는 보상 미세 조정을 편집으로 재구성합니다. 디퓨전 프로세스를 활용하여 샘플링된 비디오를 손상시킴으로써, InstructVideo는 DDIM 샘플링 체인의 부분적 추론만을 요구하여 미세 조정 비용을 줄이고 효율성을 향상시킵니다. 2) 인간 선호도를 위한 전용 비디오 보상 모델의 부재를 완화하기 위해, 우리는 HPSv2와 같은 기존의 이미지 보상 모델을 재활용합니다. 이를 위해, 우리는 세그먼트 기반 희소 샘플링을 통해 보상 신호를 제공하는 세그먼트 비디오 보상(Segmental Video Reward)과 미세 조정 중 시간적 모델링 저하를 완화하는 시간적 감쇠 보상(Temporally Attenuated Reward) 메커니즘을 제안합니다. 정성적 및 정량적 실험을 통해, InstructVideo에서 이미지 보상 모델을 사용하는 것이 생성된 비디오의 시각적 품질을 크게 향상시키면서도 일반화 능력을 저해하지 않음을 검증했습니다. 코드와 모델은 공개될 예정입니다.
English
Diffusion models have emerged as the de facto paradigm for video generation.
However, their reliance on web-scale data of varied quality often yields
results that are visually unappealing and misaligned with the textual prompts.
To tackle this problem, we propose InstructVideo to instruct text-to-video
diffusion models with human feedback by reward fine-tuning. InstructVideo has
two key ingredients: 1) To ameliorate the cost of reward fine-tuning induced by
generating through the full DDIM sampling chain, we recast reward fine-tuning
as editing. By leveraging the diffusion process to corrupt a sampled video,
InstructVideo requires only partial inference of the DDIM sampling chain,
reducing fine-tuning cost while improving fine-tuning efficiency. 2) To
mitigate the absence of a dedicated video reward model for human preferences,
we repurpose established image reward models, e.g., HPSv2. To this end, we
propose Segmental Video Reward, a mechanism to provide reward signals based on
segmental sparse sampling, and Temporally Attenuated Reward, a method that
mitigates temporal modeling degradation during fine-tuning. Extensive
experiments, both qualitative and quantitative, validate the practicality and
efficacy of using image reward models in InstructVideo, significantly enhancing
the visual quality of generated videos without compromising generalization
capabilities. Code and models will be made publicly available.