Generación de Videos de Control Detallado mediante la Apariencia y el Contexto de Objetos
Fine-grained Controllable Video Generation via Object Appearance and Context
December 5, 2023
Autores: Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun Zhu, Ming-Hsuan Yang
cs.AI
Resumen
La generación de texto a video ha mostrado resultados prometedores. Sin embargo, al utilizar únicamente lenguajes naturales como entrada, los usuarios a menudo enfrentan dificultades para proporcionar información detallada que permita controlar con precisión la salida del modelo. En este trabajo, proponemos la generación de video controlable de grano fino (FACTOR) para lograr un control detallado. Específicamente, FACTOR busca controlar las apariencias y el contexto de los objetos, incluyendo su ubicación y categoría, en conjunto con el texto de entrada. Para lograr un control detallado, proponemos un marco unificado que inyecta conjuntamente señales de control en el modelo existente de texto a video. Nuestro modelo consiste en un codificador conjunto y capas de atención cruzada adaptativa. Al optimizar el codificador y la capa insertada, adaptamos el modelo para generar videos que están alineados tanto con los textos de entrada como con el control de grano fino. En comparación con los métodos existentes que dependen de señales de control densas, como mapas de bordes, proporcionamos una interfaz más intuitiva y fácil de usar que permite un control de grano fino a nivel de objeto. Nuestro método logra la controlabilidad de las apariencias de los objetos sin necesidad de ajuste fino, lo que reduce el esfuerzo de optimización por sujeto para los usuarios. Experimentos extensos en conjuntos de datos de referencia estándar y entradas proporcionadas por usuarios validan que nuestro modelo obtiene una mejora del 70% en métricas de controlabilidad sobre líneas base competitivas.
English
Text-to-video generation has shown promising results. However, by taking only
natural languages as input, users often face difficulties in providing detailed
information to precisely control the model's output. In this work, we propose
fine-grained controllable video generation (FACTOR) to achieve detailed
control. Specifically, FACTOR aims to control objects' appearances and context,
including their location and category, in conjunction with the text prompt. To
achieve detailed control, we propose a unified framework to jointly inject
control signals into the existing text-to-video model. Our model consists of a
joint encoder and adaptive cross-attention layers. By optimizing the encoder
and the inserted layer, we adapt the model to generate videos that are aligned
with both text prompts and fine-grained control. Compared to existing methods
relying on dense control signals such as edge maps, we provide a more intuitive
and user-friendly interface to allow object-level fine-grained control. Our
method achieves controllability of object appearances without finetuning, which
reduces the per-subject optimization efforts for the users. Extensive
experiments on standard benchmark datasets and user-provided inputs validate
that our model obtains a 70% improvement in controllability metrics over
competitive baselines.