Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor
May 31, 2023
Авторы: Ruizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu
cs.AI
Аннотация
В последние годы были достигнуты значительные успехи в редактировании изображений с использованием текстовых инструкций. Однако при применении этих редакторов к редактированию динамических сцен новая сцена часто оказывается временно несогласованной из-за покадрового характера работы этих 2D-редакторов. Для решения этой проблемы мы предлагаем Control4D — новый подход для высококачественного и временно согласованного редактирования 4D-портретов. Control4D основан на эффективном 4D-представлении с использованием 2D-диффузионного редактора. Вместо прямого использования обучающих сигналов от редактора наш метод обучает 4D GAN на его основе, избегая несогласованных сигналов обучения. В частности, мы используем дискриминатор для изучения распределения генерации на основе отредактированных изображений, а затем обновляем генератор с помощью сигналов дискриминации. Для более стабильного обучения из отредактированных изображений извлекается многоуровневая информация, которая используется для облегчения обучения генератора. Экспериментальные результаты показывают, что Control4D превосходит предыдущие подходы и достигает более фотореалистичных и согласованных результатов 4D-редактирования. Ссылка на наш проект доступна по адресу: https://control4darxiv.github.io.
English
Recent years have witnessed considerable achievements in editing images with
text instructions. When applying these editors to dynamic scene editing, the
new-style scene tends to be temporally inconsistent due to the frame-by-frame
nature of these 2D editors. To tackle this issue, we propose Control4D, a novel
approach for high-fidelity and temporally consistent 4D portrait editing.
Control4D is built upon an efficient 4D representation with a 2D
diffusion-based editor. Instead of using direct supervisions from the editor,
our method learns a 4D GAN from it and avoids the inconsistent supervision
signals. Specifically, we employ a discriminator to learn the generation
distribution based on the edited images and then update the generator with the
discrimination signals. For more stable training, multi-level information is
extracted from the edited images and used to facilitate the learning of the
generator. Experimental results show that Control4D surpasses previous
approaches and achieves more photo-realistic and consistent 4D editing
performances. The link to our project website is
https://control4darxiv.github.io.