V-Express : Abandon conditionnel pour l'entraînement progressif de la génération de vidéos de portraits
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Auteurs: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Résumé
Dans le domaine de la génération de vidéos de portraits, l'utilisation d'images uniques pour produire des vidéos de portraits est devenue de plus en plus courante. Une approche commune consiste à exploiter des modèles génératifs pour améliorer les adaptateurs en vue d'une génération contrôlée. Cependant, les signaux de contrôle (par exemple, texte, audio, image de référence, pose, carte de profondeur, etc.) peuvent varier en intensité. Parmi ceux-ci, les conditions plus faibles ont souvent du mal à être efficaces en raison des interférences causées par des conditions plus fortes, ce qui pose un défi dans l'équilibrage de ces conditions. Dans notre travail sur la génération de vidéos de portraits, nous avons identifié les signaux audio comme particulièrement faibles, souvent éclipsés par des signaux plus forts tels que la pose faciale et l'image de référence. Cependant, un entraînement direct avec des signaux faibles entraîne souvent des difficultés de convergence. Pour résoudre ce problème, nous proposons V-Express, une méthode simple qui équilibre différents signaux de contrôle grâce à un entraînement progressif et à une opération de dropout conditionnel. Notre méthode permet progressivement un contrôle efficace par des conditions faibles, atteignant ainsi des capacités de génération qui prennent simultanément en compte la pose faciale, l'image de référence et l'audio. Les résultats expérimentaux démontrent que notre méthode peut générer efficacement des vidéos de portraits contrôlées par l'audio. De plus, une solution potentielle est fournie pour l'utilisation simultanée et efficace de conditions d'intensités variées.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.Summary
AI-Generated Summary