I4VGen: изображение как ступень для генерации текста в видеоформате
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
Авторы: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
Аннотация
Генерация видео по тексту отстает по качеству и разнообразию от синтеза изображений по тексту из-за сложности пространственно-временного моделирования и ограниченности наборов данных видео-текст. В данной статье представлена I4VGen - фреймворк вывода видео-диффузии, не требующий обучения и готовый к использованию, который улучшает генерацию видео по тексту, используя надежные техники изображений. Конкретно, следуя от текста к изображению к видео, I4VGen разделяет генерацию видео по тексту на два этапа: синтез якорного изображения и синтез видео под руководством якорного изображения. Соответственно, используется хорошо спроектированная конвейерная генерация-выборка для достижения визуально реалистичного и семантически верного якорного изображения, а также внедрена инновационная выборка дистилляции оценки видео-шума-инвариантного, чтобы анимировать изображение в динамическое видео, за которым следует процесс регенерации видео для его улучшения. Эта стратегия вывода эффективно смягчает распространенную проблему ненулевого отношения сигнал-шум к терминалу. Обширные оценки показывают, что I4VGen не только производит видео с более высоким визуальным реализмом и текстовой достоверностью, но также интегрируется безупречно в существующие модели диффузии изображений в видео, тем самым улучшая общее качество видео.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.Summary
AI-Generated Summary