ChatPaper.aiChatPaper

Видеоруководство: Улучшение моделей диффузии видео без обучения с помощью Руководства учителя

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

October 6, 2024
Авторы: Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye
cs.AI

Аннотация

Модели диффузии текста в изображение (T2I) революционизировали создание визуального контента, однако расширение этих возможностей на генерацию текста в видео (T2V) остается вызовом, особенно в сохранении временной согласованности. Существующие методы, направленные на улучшение согласованности, часто приводят к компромиссам, таким как снижение качества изображения и непрактичное вычислительное время. Для решения этих проблем мы представляем VideoGuide, новую структуру, которая улучшает временную согласованность предварительно обученных моделей T2V без необходимости дополнительного обучения или настройки. Вместо этого VideoGuide использует любую предварительно обученную модель диффузии видео (VDM) или саму себя в качестве руководства на ранних этапах вывода, улучшая временное качество путем интерполяции образцов денойзинга руководящей модели в процесс денойзинга модели выборки. Предложенный метод приводит к значительному улучшению временной согласованности и качества изображения, обеспечивая экономичное и практичное решение, которое совмещает преимущества различных моделей диффузии видео. Кроме того, мы демонстрируем предварительное дистиллирование, показывая, что базовые модели могут достичь улучшенной согласованности текста, используя превосходный априорный данные руководящей модели через предложенный метод. Страница проекта: http://videoguide2025.github.io/
English
Text-to-image (T2I) diffusion models have revolutionized visual content creation, but extending these capabilities to text-to-video (T2V) generation remains a challenge, particularly in preserving temporal consistency. Existing methods that aim to improve consistency often cause trade-offs such as reduced imaging quality and impractical computational time. To address these issues we introduce VideoGuide, a novel framework that enhances the temporal consistency of pretrained T2V models without the need for additional training or fine-tuning. Instead, VideoGuide leverages any pretrained video diffusion model (VDM) or itself as a guide during the early stages of inference, improving temporal quality by interpolating the guiding model's denoised samples into the sampling model's denoising process. The proposed method brings about significant improvement in temporal consistency and image fidelity, providing a cost-effective and practical solution that synergizes the strengths of various video diffusion models. Furthermore, we demonstrate prior distillation, revealing that base models can achieve enhanced text coherence by utilizing the superior data prior of the guiding model through the proposed method. Project Page: http://videoguide2025.github.io/
PDF303November 16, 2024