V-Express: Dropout Condizionale per l'Addestramento Progressivo della Generazione di Video Ritratti

Abstract

Nel campo della generazione di video ritratto, l'uso di singole immagini per generare video ritratto è diventato sempre più diffuso. Un approccio comune prevede l'utilizzo di modelli generativi per migliorare gli adattatori per una generazione controllata. Tuttavia, i segnali di controllo (ad esempio, testo, audio, immagine di riferimento, posa, mappa di profondità, ecc.) possono variare in intensità. Tra questi, le condizioni più deboli spesso faticano a essere efficaci a causa dell'interferenza di condizioni più forti, rappresentando una sfida nel bilanciare queste condizioni. Nel nostro lavoro sulla generazione di video ritratto, abbiamo identificato i segnali audio come particolarmente deboli, spesso oscurati da segnali più forti come la posa del volto e l'immagine di riferimento. Tuttavia, l'addestramento diretto con segnali deboli spesso porta a difficoltà nella convergenza. Per affrontare questo problema, proponiamo V-Express, un metodo semplice che bilancia diversi segnali di controllo attraverso l'addestramento progressivo e l'operazione di dropout condizionale. Il nostro metodo abilita gradualmente un controllo efficace da parte di condizioni deboli, raggiungendo così capacità di generazione che tengono conto simultaneamente della posa del volto, dell'immagine di riferimento e dell'audio. I risultati sperimentali dimostrano che il nostro metodo può generare efficacemente video ritratto controllati dall'audio. Inoltre, viene fornita una potenziale soluzione per l'uso simultaneo ed efficace di condizioni di diversa intensità.

English

In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.

V-Express: Dropout Condizionale per l'Addestramento Progressivo della Generazione di Video Ritratti

V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

Abstract

Support