V-Express: Abandono Condicional para Treinamento Progressivo de Geração de Vídeos de Retratos
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Autores: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Resumo
No campo de geração de vídeos de retratos, o uso de imagens únicas para gerar vídeos de retratos tem se tornado cada vez mais prevalente. Uma abordagem comum envolve a utilização de modelos generativos para aprimorar adaptadores visando uma geração controlada. No entanto, os sinais de controle (por exemplo, texto, áudio, imagem de referência, pose, mapa de profundidade, etc.) podem variar em intensidade. Dentre esses, condições mais fracas frequentemente lutam para serem eficazes devido à interferência de condições mais fortes, o que representa um desafio no equilíbrio dessas condições. Em nosso trabalho sobre geração de vídeos de retratos, identificamos sinais de áudio como particularmente fracos, muitas vezes ofuscados por sinais mais fortes, como a pose facial e a imagem de referência. No entanto, o treinamento direto com sinais fracos frequentemente leva a dificuldades de convergência. Para abordar isso, propomos o V-Express, um método simples que equilibra diferentes sinais de controle por meio do treinamento progressivo e da operação de dropout condicional. Nosso método habilita gradualmente o controle eficaz por condições fracas, alcançando assim capacidades de geração que consideram simultaneamente a pose facial, a imagem de referência e o áudio. Os resultados experimentais demonstram que nosso método pode gerar efetivamente vídeos de retratos controlados por áudio. Além disso, uma solução potencial é fornecida para o uso simultâneo e eficaz de condições de intensidades variadas.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.