Porträt-Videobearbeitung gestärkt durch multimodale generative Vorkenntnisse
Portrait Video Editing Empowered by Multimodal Generative Priors
September 20, 2024
Autoren: Xuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang
cs.AI
Zusammenfassung
Wir stellen PortraitGen vor, eine leistungsstarke Methode zur Bearbeitung von Porträtvideos, die eine konsistente und ausdrucksstarke Stilisierung mit multimodalen Eingaben erreicht. Traditionelle Methoden zur Bearbeitung von Porträtvideos haben oft Schwierigkeiten mit 3D- und zeitlicher Konsistenz und weisen in der Regel Mängel in der Rendering-Qualität und Effizienz auf. Um diese Probleme zu lösen, heben wir die Porträtvideoframes auf ein vereinheitlichtes dynamisches 3D-Gaußsches Feld an, das strukturelle und zeitliche Kohärenz über die Frames hinweg gewährleistet. Darüber hinaus haben wir einen neuartigen Mechanismus für neuronale Gaußsche Texturen entwickelt, der nicht nur eine anspruchsvolle Stilbearbeitung ermöglicht, sondern auch eine Rendering-Geschwindigkeit von über 100 FPS erreicht. Unser Ansatz integriert multimodale Eingaben durch Wissensverdichtung aus groß angelegten 2D-generativen Modellen. Unser System beinhaltet auch Anleitungen zur Ähnlichkeit von Ausdrücken und ein gesichtsbewusstes Porträtbearbeitungsmodul, das effektiv Degradationsprobleme im Zusammenhang mit iterativen Datensatzaktualisierungen mildert. Umfangreiche Experimente zeigen die zeitliche Konsistenz, Bearbeitungseffizienz und überragende Rendering-Qualität unserer Methode. Die breite Anwendbarkeit des vorgeschlagenen Ansatzes wird durch verschiedene Anwendungen demonstriert, darunter textgesteuerte Bearbeitung, bildgesteuerte Bearbeitung und Neubeleuchtung, was ihr großes Potenzial zur Weiterentwicklung des Bereichs der Videobearbeitung unterstreicht. Demo-Videos und der freigegebene Code sind auf unserer Projektseite verfügbar: https://ustc3dv.github.io/PortraitGen/
English
We introduce PortraitGen, a powerful portrait video editing method that
achieves consistent and expressive stylization with multimodal prompts.
Traditional portrait video editing methods often struggle with 3D and temporal
consistency, and typically lack in rendering quality and efficiency. To address
these issues, we lift the portrait video frames to a unified dynamic 3D
Gaussian field, which ensures structural and temporal coherence across frames.
Furthermore, we design a novel Neural Gaussian Texture mechanism that not only
enables sophisticated style editing but also achieves rendering speed over
100FPS. Our approach incorporates multimodal inputs through knowledge distilled
from large-scale 2D generative models. Our system also incorporates expression
similarity guidance and a face-aware portrait editing module, effectively
mitigating degradation issues associated with iterative dataset updates.
Extensive experiments demonstrate the temporal consistency, editing efficiency,
and superior rendering quality of our method. The broad applicability of the
proposed approach is demonstrated through various applications, including
text-driven editing, image-driven editing, and relighting, highlighting its
great potential to advance the field of video editing. Demo videos and released
code are provided in our project page: https://ustc3dv.github.io/PortraitGen/Summary
AI-Generated Summary