ChatPaper.aiChatPaper

Генерация видео на основе объекта через разделение идентичности и движения

Subject-driven Video Generation via Disentangled Identity and Motion

April 23, 2025
Авторы: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo
cs.AI

Аннотация

Мы предлагаем обучить модель генерации персонализированных видео, ориентированную на конкретный объект, путем разделения обучения, специфичного для объекта, и временной динамики в условиях нулевого сэмплинга без дополнительной настройки. Традиционный метод персонализации видео, не требующий настройки, часто опирается на большие аннотированные наборы видеоданных, что требует значительных вычислительных ресурсов и обширной аннотации. В отличие от предыдущего подхода, мы предлагаем использовать набор данных для персонализации изображений непосредственно для обучения моделей персонализации видео, разделяя персонализацию видео на два этапа: (1) внедрение идентичности через набор данных для персонализации изображений и (2) сохранение временного моделирования с использованием небольшого набора неаннотированных видео через метод обучения "изображение-в-видео". Дополнительно мы применяем случайное отбрасывание токенов изображения с рандомизированной инициализацией изображений во время тонкой настройки "изображение-в-видео", чтобы смягчить проблему копирования и вставки. Для дальнейшего улучшения обучения мы вводим стохастическое переключение во время совместной оптимизации специфичных для объекта и временных признаков, что позволяет смягчить катастрофическое забывание. Наш метод демонстрирует высокую согласованность объекта и масштабируемость, превосходя существующие модели персонализации видео в условиях нулевого сэмплинга, что подтверждает эффективность нашей методологии.
English
We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.

Summary

AI-Generated Summary

PDF112April 28, 2025