ReSyncer: 통합 오디오-시각적으로 동기화된 얼굴 퍼포머를 위한 스타일 기반 생성기 다시 연결
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
저자: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
초록
주어진 오디오와 동기화된 립싱크 비디오는 가상 프레젠터 또는 퍼포머를 만드는 등 다양한 응용 프로그램의 기초입니다. 최근 연구들은 다양한 기술로 고품질의 립싱크를 탐구하고 있지만, 그들의 작업 지향적 모델은 클립별 훈련을 위해 장기간의 비디오를 필요로 하거나 시각적인 아티팩트를 유지합니다. 본 논문에서는 통합적이고 효과적인 프레임워크 ReSyncer를 제안합니다. 이 프레임워크는 일반화된 오디오-시각적 얼굴 정보를 동기화합니다. 주요 디자인은 원칙적인 스타일 주입 트랜스포머에 의해 예측된 3D 얼굴 역학을 효율적으로 채택하기 위해 스타일 기반 생성기를 재방문하고 재배선하는 것입니다. 잡음과 스타일 공간 내 정보 삽입 메커니즘을 간단히 다시 구성함으로써 우리의 프레임워크는 운동과 외관을 통합된 훈련으로 융합합니다. 포괄적인 실험은 ReSyncer가 오디오에 따라 고품질의 립싱크 비디오를 생성하는 뿐만 아니라 가상 프레젠터와 퍼포머를 만드는 데 적합한 다양한 매력적인 특성을 지원한다는 것을 입증합니다. 이 프로젝트의 자료는 https://guanjz20.github.io/projects/ReSyncer에서 찾을 수 있습니다.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary