ChatPaper.aiChatPaper

Движение без перемещения: Генерация индивидуализированных видео без индивидуализированных видеоданных

Still-Moving: Customized Video Generation without Customized Video Data

July 11, 2024
Авторы: Hila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri
cs.AI

Аннотация

Настройка моделей текст-в-изображение (T2I) недавно продемонстрировала значительный прогресс, особенно в областях персонализации, стилизации и условной генерации. Однако расширение этого прогресса на генерацию видео все еще находится в начальной стадии, в основном из-за отсутствия настраиваемых видеоданных. В данной работе мы представляем Still-Moving, новую общую структуру для настройки модели текст-в-видео (T2V) без необходимости настраиваемых видеоданных. Эта структура применима к ведущему дизайну T2V, где видеомодель строится на основе модели текст-в-изображение (T2I) (например, через надувание). Мы предполагаем наличие настроенной версии модели T2I, обученной только на статических изображениях (например, с использованием DreamBooth или StyleDrop). Простое подключение весов настроенной модели T2I в модель T2V часто приводит к значительным артефактам или недостаточному соблюдению настраиваемых данных. Для преодоления этой проблемы мы обучаем легкие пространственные адаптеры, которые корректируют признаки, созданные внедренными слоями T2I. Важно, что наши адаптеры обучаются на "замороженных видео" (т.е. повторяющихся изображениях), созданных из образцов изображений, сгенерированных настроенной моделью T2I. Это обучение облегчается новым модулем Motion Adapter, который позволяет нам обучаться на таких статических видео, сохраняя при этом движущийся приоритет видеомодели. На этапе тестирования мы удаляем модули Motion Adapter и оставляем только обученные пространственные адаптеры. Это восстанавливает движущийся приоритет модели T2V, соблюдая пространственный приоритет настроенной модели T2I. Мы демонстрируем эффективность нашего подхода на различных задачах, включая персонализированную, стилизованную и условную генерацию. Во всех оцененных сценариях наш метод плавно интегрирует пространственный приоритет настроенной модели T2I с движущимся приоритетом, предоставленным моделью T2V.
English
Customizing text-to-image (T2I) models has seen tremendous progress recently, particularly in areas such as personalization, stylization, and conditional generation. However, expanding this progress to video generation is still in its infancy, primarily due to the lack of customized video data. In this work, we introduce Still-Moving, a novel generic framework for customizing a text-to-video (T2V) model, without requiring any customized video data. The framework applies to the prominent T2V design where the video model is built over a text-to-image (T2I) model (e.g., via inflation). We assume access to a customized version of the T2I model, trained only on still image data (e.g., using DreamBooth or StyleDrop). Naively plugging in the weights of the customized T2I model into the T2V model often leads to significant artifacts or insufficient adherence to the customization data. To overcome this issue, we train lightweight Spatial Adapters that adjust the features produced by the injected T2I layers. Importantly, our adapters are trained on "frozen videos" (i.e., repeated images), constructed from image samples generated by the customized T2I model. This training is facilitated by a novel Motion Adapter module, which allows us to train on such static videos while preserving the motion prior of the video model. At test time, we remove the Motion Adapter modules and leave in only the trained Spatial Adapters. This restores the motion prior of the T2V model while adhering to the spatial prior of the customized T2I model. We demonstrate the effectiveness of our approach on diverse tasks including personalized, stylized, and conditional generation. In all evaluated scenarios, our method seamlessly integrates the spatial prior of the customized T2I model with a motion prior supplied by the T2V model.

Summary

AI-Generated Summary

PDF132November 28, 2024