ReSyncer: Перекоммутация генератора на основе стиля для единой аудиовизуальной синхронизации лицевого исполнителя.
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
August 6, 2024
Авторы: Jiazhi Guan, Zhiliang Xu, Hang Zhou, Kaisiyuan Wang, Shengyi He, Zhanwang Zhang, Borong Liang, Haocheng Feng, Errui Ding, Jingtuo Liu, Jingdong Wang, Youjian Zhao, Ziwei Liu
cs.AI
Аннотация
Видеоролики с синхронизацией губ по заданному аудио являются основой для различных приложений, включая создание виртуальных ведущих или исполнителей. В то время как недавние исследования исследуют высококачественную синхронизацию губ с использованием различных техник, их модели, ориентированные на задачу, либо требуют длительных видеороликов для обучения под конкретный клип, либо сохраняют видимые артефакты. В данной статье мы предлагаем объединенную и эффективную структуру ReSyncer, которая синхронизирует обобщенную аудиовизуальную информацию о лице. Ключевым моментом является пересмотр и переподключение генератора на основе стилей для эффективного принятия предсказанных 3D динамик лица с помощью принципиального трансформатора, внедренного в стиль. Простым переконфигурированием механизмов вставки информации в пространстве шума и стиля наша структура объединяет движение и внешний вид с единым обучением. Обширные эксперименты демонстрируют, что ReSyncer не только производит видеоролики с высоким качеством синхронизации губ в соответствии с аудио, но также поддерживает несколько привлекательных свойств, подходящих для создания виртуальных ведущих и исполнителей, включая быструю персонализированную донастройку, синхронизацию губ по видео, передачу стилей речи и даже обмен лицами. Ресурсы можно найти по адресу https://guanjz20.github.io/projects/ReSyncer.
English
Lip-syncing videos with given audio is the foundation for various
applications including the creation of virtual presenters or performers. While
recent studies explore high-fidelity lip-sync with different techniques, their
task-orientated models either require long-term videos for clip-specific
training or retain visible artifacts. In this paper, we propose a unified and
effective framework ReSyncer, that synchronizes generalized audio-visual facial
information. The key design is revisiting and rewiring the Style-based
generator to efficiently adopt 3D facial dynamics predicted by a principled
style-injected Transformer. By simply re-configuring the information insertion
mechanisms within the noise and style space, our framework fuses motion and
appearance with unified training. Extensive experiments demonstrate that
ReSyncer not only produces high-fidelity lip-synced videos according to audio,
but also supports multiple appealing properties that are suitable for creating
virtual presenters and performers, including fast personalized fine-tuning,
video-driven lip-syncing, the transfer of speaking styles, and even face
swapping. Resources can be found at
https://guanjz20.github.io/projects/ReSyncer.Summary
AI-Generated Summary