Многопредметная персонализация с открытым набором данных в генерации видео
Multi-subject Open-set Personalization in Video Generation
January 10, 2025
Авторы: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Аннотация
Методы персонализации видео позволяют нам синтезировать видео с конкретными концепциями, такими как люди, домашние животные и места. Однако существующие методы часто сосредотачиваются на ограниченных областях, требуют трудоемкой оптимизации для каждого объекта или поддерживают только один объект. Мы представляем Video Alchemist - видеомодель с встроенными возможностями мультиобъектной персонализации с открытым набором для как переднего, так и заднего плана, устраняя необходимость в трудоемкой оптимизации во время тестирования. Наша модель основана на новом модуле Диффузионного Трансформера, который объединяет каждое условное опорное изображение и соответствующий текстовый запрос на уровне объекта с использованием слоев кросс-внимания. Разработка такой большой модели представляет две основные проблемы: набор данных и оценка. Во-первых, поскольку собрать сопоставленные наборы данных опорных изображений и видео крайне сложно, мы выбираем отдельные кадры видео в качестве опорных изображений и синтезируем клип целевого видео. Однако, хотя модели легко удаляют шум из обучающих видео на основе опорных кадров, они не могут обобщить на новые контексты. Для уменьшения этой проблемы мы разрабатываем новый автоматический конвейер построения данных с обширными аугментациями изображений. Во-вторых, оценка персонализации видео с открытым набором сама по себе представляет собой вызов. Для решения этой проблемы мы представляем бенчмарк по персонализации, который фокусируется на точной субъективной достоверности и поддерживает разнообразные сценарии персонализации. Наконец, наши обширные эксперименты показывают, что наш метод значительно превосходит существующие методы персонализации как в количественных, так и в качественных оценках.
English
Video personalization methods allow us to synthesize videos with specific
concepts such as people, pets, and places. However, existing methods often
focus on limited domains, require time-consuming optimization per subject, or
support only a single subject. We present Video Alchemist - a video model
with built-in multi-subject, open-set personalization capabilities for both
foreground objects and background, eliminating the need for time-consuming
test-time optimization. Our model is built on a new Diffusion Transformer
module that fuses each conditional reference image and its corresponding
subject-level text prompt with cross-attention layers. Developing such a large
model presents two main challenges: dataset and evaluation. First, as paired
datasets of reference images and videos are extremely hard to collect, we
sample selected video frames as reference images and synthesize a clip of the
target video. However, while models can easily denoise training videos given
reference frames, they fail to generalize to new contexts. To mitigate this
issue, we design a new automatic data construction pipeline with extensive
image augmentations. Second, evaluating open-set video personalization is a
challenge in itself. To address this, we introduce a personalization benchmark
that focuses on accurate subject fidelity and supports diverse personalization
scenarios. Finally, our extensive experiments show that our method
significantly outperforms existing personalization methods in both quantitative
and qualitative evaluations.Summary
AI-Generated Summary