V-Express: Dropout Condizionale per l'Addestramento Progressivo della Generazione di Video Ritratti
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Autori: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Abstract
Nel campo della generazione di video ritratto, l'uso di singole immagini per generare video ritratto è diventato sempre più diffuso. Un approccio comune prevede l'utilizzo di modelli generativi per migliorare gli adattatori per una generazione controllata. Tuttavia, i segnali di controllo (ad esempio, testo, audio, immagine di riferimento, posa, mappa di profondità, ecc.) possono variare in intensità. Tra questi, le condizioni più deboli spesso faticano a essere efficaci a causa dell'interferenza di condizioni più forti, rappresentando una sfida nel bilanciare queste condizioni. Nel nostro lavoro sulla generazione di video ritratto, abbiamo identificato i segnali audio come particolarmente deboli, spesso oscurati da segnali più forti come la posa del volto e l'immagine di riferimento. Tuttavia, l'addestramento diretto con segnali deboli spesso porta a difficoltà nella convergenza. Per affrontare questo problema, proponiamo V-Express, un metodo semplice che bilancia diversi segnali di controllo attraverso l'addestramento progressivo e l'operazione di dropout condizionale. Il nostro metodo abilita gradualmente un controllo efficace da parte di condizioni deboli, raggiungendo così capacità di generazione che tengono conto simultaneamente della posa del volto, dell'immagine di riferimento e dell'audio. I risultati sperimentali dimostrano che il nostro metodo può generare efficacemente video ritratto controllati dall'audio. Inoltre, viene fornita una potenziale soluzione per l'uso simultaneo ed efficace di condizioni di diversa intensità.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.