Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией

Аннотация

В последние годы были достигнуты значительные успехи в редактировании изображений с использованием текстовых инструкций. Однако при применении этих редакторов к редактированию динамических сцен новая сцена часто оказывается временно несогласованной из-за покадрового характера работы этих 2D-редакторов. Для решения этой проблемы мы предлагаем Control4D — новый подход для высококачественного и временно согласованного редактирования 4D-портретов. Control4D основан на эффективном 4D-представлении с использованием 2D-диффузионного редактора. Вместо прямого использования обучающих сигналов от редактора наш метод обучает 4D GAN на его основе, избегая несогласованных сигналов обучения. В частности, мы используем дискриминатор для изучения распределения генерации на основе отредактированных изображений, а затем обновляем генератор с помощью сигналов дискриминации. Для более стабильного обучения из отредактированных изображений извлекается многоуровневая информация, которая используется для облегчения обучения генератора. Экспериментальные результаты показывают, что Control4D превосходит предыдущие подходы и достигает более фотореалистичных и согласованных результатов 4D-редактирования. Ссылка на наш проект доступна по адресу: https://control4darxiv.github.io.

English

Recent years have witnessed considerable achievements in editing images with text instructions. When applying these editors to dynamic scene editing, the new-style scene tends to be temporally inconsistent due to the frame-by-frame nature of these 2D editors. To tackle this issue, we propose Control4D, a novel approach for high-fidelity and temporally consistent 4D portrait editing. Control4D is built upon an efficient 4D representation with a 2D diffusion-based editor. Instead of using direct supervisions from the editor, our method learns a 4D GAN from it and avoids the inconsistent supervision signals. Specifically, we employ a discriminator to learn the generation distribution based on the edited images and then update the generator with the discrimination signals. For more stable training, multi-level information is extracted from the edited images and used to facilitate the learning of the generator. Experimental results show that Control4D surpasses previous approaches and achieves more photo-realistic and consistent 4D editing performances. The link to our project website is https://control4darxiv.github.io.

Control4D: Динамическое редактирование портретов через обучение 4D GAN на основе 2D редактора с диффузией

Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

Аннотация

Support