V-Express: Bedingtes Auslassen für das progressive Training der Porträt-Videoerzeugung
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Autoren: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Zusammenfassung
Im Bereich der Porträtvideoerstellung hat die Verwendung einzelner Bilder zur Generierung von Porträtvideos zunehmend an Bedeutung gewonnen. Ein gängiger Ansatz besteht darin, generative Modelle zu nutzen, um Adapter zur kontrollierten Generierung zu verbessern. Allerdings können Steuersignale (z. B. Text, Audio, Referenzbild, Pose, Tiefenkarte usw.) in ihrer Stärke variieren. Unter diesen Bedingungen haben schwächere Signale oft Schwierigkeiten, effektiv zu sein, da sie durch stärkere Bedingungen gestört werden, was eine Herausforderung bei der Balance dieser Bedingungen darstellt. In unserer Arbeit zur Porträtvideoerstellung haben wir Audiosignale als besonders schwach identifiziert, die oft von stärkeren Signalen wie Gesichtspose und Referenzbild überschattet werden. Direktes Training mit schwachen Signalen führt jedoch oft zu Konvergenzschwierigkeiten. Um dies zu lösen, schlagen wir V-Express vor, eine einfache Methode, die verschiedene Steuersignale durch das progressive Training und die bedingte Auslassung ausbalanciert. Unsere Methode ermöglicht allmählich eine effektive Steuerung durch schwache Bedingungen und erreicht so Generierungsfähigkeiten, die gleichzeitig die Gesichtspose, das Referenzbild und das Audio berücksichtigen. Die experimentellen Ergebnisse zeigen, dass unsere Methode Porträtvideos effektiv generieren kann, die durch Audio gesteuert werden. Darüber hinaus wird eine potenzielle Lösung für die gleichzeitige und effektive Nutzung von Bedingungen unterschiedlicher Stärke bereitgestellt.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.Summary
AI-Generated Summary