ChatPaper.aiChatPaper

V-Express: Conditionele Dropout voor Progressieve Training van Portretvideo-generatie

V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

June 4, 2024
Auteurs: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI

Samenvatting

Op het gebied van portretvideogeneratie is het gebruik van enkele afbeeldingen om portretvideo's te genereren steeds gebruikelijker geworden. Een veelgebruikte aanpak is het inzetten van generatieve modellen om adapters te verbeteren voor gecontroleerde generatie. Controlesignalen (bijv. tekst, audio, referentieafbeelding, pose, dieptekaart, enz.) kunnen echter variëren in sterkte. Onder deze signalen hebben zwakkere condities vaak moeite om effectief te zijn vanwege interferentie door sterkere condities, wat een uitdaging vormt bij het balanceren van deze condities. In ons werk aan portretvideogeneratie identificeerden we audiosignalen als bijzonder zwak, vaak overschaduwd door sterkere signalen zoals gezichtspose en referentieafbeelding. Direct trainen met zwakke signalen leidt echter vaak tot problemen bij convergentie. Om dit aan te pakken, stellen we V-Express voor, een eenvoudige methode die verschillende controlesignalen balanceert door middel van progressieve training en de conditionele dropout-operatie. Onze methode maakt geleidelijk effectieve controle door zwakke condities mogelijk, waardoor generatiecapaciteiten worden bereikt die tegelijkertijd rekening houden met de gezichtspose, referentieafbeelding en audio. De experimentele resultaten tonen aan dat onze methode effectief portretvideo's kan genereren die door audio worden gecontroleerd. Bovendien wordt een mogelijke oplossing geboden voor het gelijktijdige en effectieve gebruik van condities van uiteenlopende sterkte.
English
In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.
PDF112February 8, 2026