V-Express: Условное отсевание для поэтапного обучения портретной генерации видео
V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation
June 4, 2024
Авторы: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI
Аннотация
В области создания портретных видео использование одиночных изображений для генерации портретных видео становится все более распространенным. Одним из распространенных подходов является использование генеративных моделей для улучшения адаптеров для управляемой генерации. Однако управляющие сигналы (например, текст, аудио, опорное изображение, поза, глубинная карта и т. д.) могут различаться по силе. Среди них слабые условия часто испытывают затруднения в эффективности из-за вмешательства более сильных условий, что создает проблему балансировки этих условий. В нашей работе по созданию портретных видео мы выявили аудиосигналы как особенно слабые, часто затмеваемые более сильными сигналами, такими как поза лица и опорное изображение. Однако прямое обучение со слабыми сигналами часто приводит к трудностям с сходимостью. Для решения этой проблемы мы предлагаем V-Express, простой метод, который балансирует различные управляющие сигналы через пошаговое обучение и условную операцию отсева. Наш метод постепенно обеспечивает эффективное управление слабыми условиями, тем самым достигая возможностей генерации, которые одновременно учитывают позу лица, опорное изображение и аудио. Экспериментальные результаты показывают, что наш метод может эффективно генерировать портретные видео, управляемые аудио. Более того, предлагается потенциальное решение для одновременного и эффективного использования условий различной силы.
English
In the field of portrait video generation, the use of single images to
generate portrait videos has become increasingly prevalent. A common approach
involves leveraging generative models to enhance adapters for controlled
generation. However, control signals (e.g., text, audio, reference image, pose,
depth map, etc.) can vary in strength. Among these, weaker conditions often
struggle to be effective due to interference from stronger conditions, posing a
challenge in balancing these conditions. In our work on portrait video
generation, we identified audio signals as particularly weak, often
overshadowed by stronger signals such as facial pose and reference image.
However, direct training with weak signals often leads to difficulties in
convergence. To address this, we propose V-Express, a simple method that
balances different control signals through the progressive training and the
conditional dropout operation. Our method gradually enables effective control
by weak conditions, thereby achieving generation capabilities that
simultaneously take into account the facial pose, reference image, and audio.
The experimental results demonstrate that our method can effectively generate
portrait videos controlled by audio. Furthermore, a potential solution is
provided for the simultaneous and effective use of conditions of varying
strengths.Summary
AI-Generated Summary