Generación de Videos de Control Detallado mediante la Apariencia y el Contexto de Objetos

Resumen

La generación de texto a video ha mostrado resultados prometedores. Sin embargo, al utilizar únicamente lenguajes naturales como entrada, los usuarios a menudo enfrentan dificultades para proporcionar información detallada que permita controlar con precisión la salida del modelo. En este trabajo, proponemos la generación de video controlable de grano fino (FACTOR) para lograr un control detallado. Específicamente, FACTOR busca controlar las apariencias y el contexto de los objetos, incluyendo su ubicación y categoría, en conjunto con el texto de entrada. Para lograr un control detallado, proponemos un marco unificado que inyecta conjuntamente señales de control en el modelo existente de texto a video. Nuestro modelo consiste en un codificador conjunto y capas de atención cruzada adaptativa. Al optimizar el codificador y la capa insertada, adaptamos el modelo para generar videos que están alineados tanto con los textos de entrada como con el control de grano fino. En comparación con los métodos existentes que dependen de señales de control densas, como mapas de bordes, proporcionamos una interfaz más intuitiva y fácil de usar que permite un control de grano fino a nivel de objeto. Nuestro método logra la controlabilidad de las apariencias de los objetos sin necesidad de ajuste fino, lo que reduce el esfuerzo de optimización por sujeto para los usuarios. Experimentos extensos en conjuntos de datos de referencia estándar y entradas proporcionadas por usuarios validan que nuestro modelo obtiene una mejora del 70% en métricas de controlabilidad sobre líneas base competitivas.

English

Text-to-video generation has shown promising results. However, by taking only natural languages as input, users often face difficulties in providing detailed information to precisely control the model's output. In this work, we propose fine-grained controllable video generation (FACTOR) to achieve detailed control. Specifically, FACTOR aims to control objects' appearances and context, including their location and category, in conjunction with the text prompt. To achieve detailed control, we propose a unified framework to jointly inject control signals into the existing text-to-video model. Our model consists of a joint encoder and adaptive cross-attention layers. By optimizing the encoder and the inserted layer, we adapt the model to generate videos that are aligned with both text prompts and fine-grained control. Compared to existing methods relying on dense control signals such as edge maps, we provide a more intuitive and user-friendly interface to allow object-level fine-grained control. Our method achieves controllability of object appearances without finetuning, which reduces the per-subject optimization efforts for the users. Extensive experiments on standard benchmark datasets and user-provided inputs validate that our model obtains a 70% improvement in controllability metrics over competitive baselines.

Generación de Videos de Control Detallado mediante la Apariencia y el Contexto de Objetos

Fine-grained Controllable Video Generation via Object Appearance and Context

Resumen

Support