Personalización multi-sujeto de conjunto abierto en la generación de video
Multi-subject Open-set Personalization in Video Generation
January 10, 2025
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Yuwei Fang, Kwot Sin Lee, Ivan Skorokhodov, Kfir Aberman, Jun-Yan Zhu, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
Resumen
Los métodos de personalización de video nos permiten sintetizar videos con conceptos específicos como personas, mascotas y lugares. Sin embargo, los métodos existentes a menudo se centran en dominios limitados, requieren una optimización que consume mucho tiempo por sujeto o solo admiten un único sujeto. Presentamos Video Alchemist, un modelo de video con capacidades de personalización de múltiples sujetos de conjunto abierto incorporadas tanto para objetos en primer plano como para el fondo, eliminando la necesidad de una optimización que consume mucho tiempo en el momento de la prueba. Nuestro modelo se basa en un nuevo módulo de Transformador de Difusión que fusiona cada imagen de referencia condicional y su correspondiente indicación de texto a nivel de sujeto con capas de atención cruzada. El desarrollo de un modelo tan grande presenta dos desafíos principales: conjunto de datos y evaluación. En primer lugar, dado que los conjuntos de datos emparejados de imágenes de referencia y videos son extremadamente difíciles de recopilar, muestreamos fotogramas de video seleccionados como imágenes de referencia y sintetizamos un fragmento del video objetivo. Sin embargo, aunque los modelos pueden limpiar fácilmente los videos de entrenamiento dados los fotogramas de referencia, no logran generalizar a nuevos contextos. Para mitigar este problema, diseñamos un nuevo canal de construcción de datos automático con amplias aumentaciones de imagen. En segundo lugar, evaluar la personalización de video de conjunto abierto es un desafío en sí mismo. Para abordar esto, presentamos un banco de pruebas de personalización que se centra en la fidelidad precisa del sujeto y admite diversos escenarios de personalización. Finalmente, nuestros experimentos exhaustivos muestran que nuestro método supera significativamente a los métodos de personalización existentes tanto en evaluaciones cuantitativas como cualitativas.
English
Video personalization methods allow us to synthesize videos with specific
concepts such as people, pets, and places. However, existing methods often
focus on limited domains, require time-consuming optimization per subject, or
support only a single subject. We present Video Alchemist - a video model
with built-in multi-subject, open-set personalization capabilities for both
foreground objects and background, eliminating the need for time-consuming
test-time optimization. Our model is built on a new Diffusion Transformer
module that fuses each conditional reference image and its corresponding
subject-level text prompt with cross-attention layers. Developing such a large
model presents two main challenges: dataset and evaluation. First, as paired
datasets of reference images and videos are extremely hard to collect, we
sample selected video frames as reference images and synthesize a clip of the
target video. However, while models can easily denoise training videos given
reference frames, they fail to generalize to new contexts. To mitigate this
issue, we design a new automatic data construction pipeline with extensive
image augmentations. Second, evaluating open-set video personalization is a
challenge in itself. To address this, we introduce a personalization benchmark
that focuses on accurate subject fidelity and supports diverse personalization
scenarios. Finally, our extensive experiments show that our method
significantly outperforms existing personalization methods in both quantitative
and qualitative evaluations.Summary
AI-Generated Summary