ChatPaper.aiChatPaper

V-Express: 초상화 비디오 생성을 위한 점진적 학습을 위한 조건부 드롭아웃

V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation

June 4, 2024
저자: Cong Wang, Kuan Tian, Jun Zhang, Yonghang Guan, Feng Luo, Fei Shen, Zhiwei Jiang, Qing Gu, Xiao Han, Wei Yang
cs.AI

초록

초상화 비디오 생성 분야에서는 단일 이미지를 사용하여 초상화 비디오를 생성하는 기술이 점점 더 널리 사용되고 있습니다. 일반적인 접근 방식은 생성 모델을 활용하여 제어된 생성을 위한 어댑터를 강화하는 것입니다. 그러나 제어 신호(예: 텍스트, 오디오, 참조 이미지, 포즈, 깊이 맵 등)는 그 강도가 다양할 수 있습니다. 이 중에서 약한 조건은 강한 조건의 간섭으로 인해 효과를 발휘하기 어려운 경우가 많아, 이러한 조건들 간의 균형을 맞추는 것이 과제로 대두됩니다. 초상화 비디오 생성에 관한 우리의 연구에서, 오디오 신호가 특히 약하며 종종 얼굴 포즈나 참조 이미지와 같은 강한 신호에 의해 가려지는 것을 확인했습니다. 그러나 약한 신호를 직접 학습에 사용하는 것은 종종 수렴에 어려움을 초래합니다. 이를 해결하기 위해, 우리는 점진적 학습과 조건부 드롭아웃 연산을 통해 다양한 제어 신호의 균형을 맞추는 간단한 방법인 V-Express를 제안합니다. 우리의 방법은 약한 조건이 효과적으로 제어할 수 있도록 점진적으로 활성화함으로써, 얼굴 포즈, 참조 이미지, 오디오를 동시에 고려한 생성 능력을 달성합니다. 실험 결과는 우리의 방법이 오디오에 의해 제어되는 초상화 비디오를 효과적으로 생성할 수 있음을 보여줍니다. 더 나아가, 다양한 강도의 조건을 동시에 효과적으로 사용할 수 있는 잠재적인 해결책을 제공합니다.
English
In the field of portrait video generation, the use of single images to generate portrait videos has become increasingly prevalent. A common approach involves leveraging generative models to enhance adapters for controlled generation. However, control signals (e.g., text, audio, reference image, pose, depth map, etc.) can vary in strength. Among these, weaker conditions often struggle to be effective due to interference from stronger conditions, posing a challenge in balancing these conditions. In our work on portrait video generation, we identified audio signals as particularly weak, often overshadowed by stronger signals such as facial pose and reference image. However, direct training with weak signals often leads to difficulties in convergence. To address this, we propose V-Express, a simple method that balances different control signals through the progressive training and the conditional dropout operation. Our method gradually enables effective control by weak conditions, thereby achieving generation capabilities that simultaneously take into account the facial pose, reference image, and audio. The experimental results demonstrate that our method can effectively generate portrait videos controlled by audio. Furthermore, a potential solution is provided for the simultaneous and effective use of conditions of varying strengths.

Summary

AI-Generated Summary

PDF112December 12, 2024