V-Express: Abandono Condicional para el Entrenamiento Progresivo de la Generación de Videos Retrato
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Autores: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Resumen
En el campo de la generación de videos de retratos, el uso de imágenes únicas para generar videos de retratos se ha vuelto cada vez más común. Un enfoque habitual implica aprovechar modelos generativos para mejorar adaptadores que permitan una generación controlada. Sin embargo, las señales de control (por ejemplo, texto, audio, imagen de referencia, pose, mapa de profundidad, etc.) pueden variar en intensidad. Entre estas, las condiciones más débiles a menudo tienen dificultades para ser efectivas debido a la interferencia de condiciones más fuertes, lo que plantea un desafío en el equilibrio de estas condiciones. En nuestro trabajo sobre la generación de videos de retratos, identificamos las señales de audio como particularmente débiles, a menudo eclipsadas por señales más fuertes como la pose facial y la imagen de referencia. Sin embargo, el entrenamiento directo con señales débiles suele dificultar la convergencia. Para abordar esto, proponemos V-Express, un método simple que equilibra diferentes señales de control mediante el entrenamiento progresivo y la operación de abandono condicional. Nuestro método permite gradualmente un control efectivo mediante condiciones débiles, logrando así capacidades de generación que tienen en cuenta simultáneamente la pose facial, la imagen de referencia y el audio. Los resultados experimentales demuestran que nuestro método puede generar efectivamente videos de retratos controlados por audio. Además, se proporciona una solución potencial para el uso simultáneo y efectivo de condiciones de diferentes intensidades.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.Summary
AI-Generated Summary