ChatPaper.aiChatPaper

Porträt-Videobearbeitung gestärkt durch multimodale generative Vorkenntnisse

Portrait Video Editing Empowered by Multimodal Generative Priors

September 20, 2024
Autoren: Xuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang
cs.AI

Zusammenfassung

Wir stellen PortraitGen vor, eine leistungsstarke Methode zur Bearbeitung von Porträtvideos, die eine konsistente und ausdrucksstarke Stilisierung mit multimodalen Eingaben erreicht. Traditionelle Methoden zur Bearbeitung von Porträtvideos haben oft Schwierigkeiten mit 3D- und zeitlicher Konsistenz und weisen in der Regel Mängel in der Rendering-Qualität und Effizienz auf. Um diese Probleme zu lösen, heben wir die Porträtvideoframes auf ein vereinheitlichtes dynamisches 3D-Gaußsches Feld an, das strukturelle und zeitliche Kohärenz über die Frames hinweg gewährleistet. Darüber hinaus haben wir einen neuartigen Mechanismus für neuronale Gaußsche Texturen entwickelt, der nicht nur eine anspruchsvolle Stilbearbeitung ermöglicht, sondern auch eine Rendering-Geschwindigkeit von über 100 FPS erreicht. Unser Ansatz integriert multimodale Eingaben durch Wissensverdichtung aus groß angelegten 2D-generativen Modellen. Unser System beinhaltet auch Anleitungen zur Ähnlichkeit von Ausdrücken und ein gesichtsbewusstes Porträtbearbeitungsmodul, das effektiv Degradationsprobleme im Zusammenhang mit iterativen Datensatzaktualisierungen mildert. Umfangreiche Experimente zeigen die zeitliche Konsistenz, Bearbeitungseffizienz und überragende Rendering-Qualität unserer Methode. Die breite Anwendbarkeit des vorgeschlagenen Ansatzes wird durch verschiedene Anwendungen demonstriert, darunter textgesteuerte Bearbeitung, bildgesteuerte Bearbeitung und Neubeleuchtung, was ihr großes Potenzial zur Weiterentwicklung des Bereichs der Videobearbeitung unterstreicht. Demo-Videos und der freigegebene Code sind auf unserer Projektseite verfügbar: https://ustc3dv.github.io/PortraitGen/
English
We introduce PortraitGen, a powerful portrait video editing method that achieves consistent and expressive stylization with multimodal prompts. Traditional portrait video editing methods often struggle with 3D and temporal consistency, and typically lack in rendering quality and efficiency. To address these issues, we lift the portrait video frames to a unified dynamic 3D Gaussian field, which ensures structural and temporal coherence across frames. Furthermore, we design a novel Neural Gaussian Texture mechanism that not only enables sophisticated style editing but also achieves rendering speed over 100FPS. Our approach incorporates multimodal inputs through knowledge distilled from large-scale 2D generative models. Our system also incorporates expression similarity guidance and a face-aware portrait editing module, effectively mitigating degradation issues associated with iterative dataset updates. Extensive experiments demonstrate the temporal consistency, editing efficiency, and superior rendering quality of our method. The broad applicability of the proposed approach is demonstrated through various applications, including text-driven editing, image-driven editing, and relighting, highlighting its great potential to advance the field of video editing. Demo videos and released code are provided in our project page: https://ustc3dv.github.io/PortraitGen/

Summary

AI-Generated Summary

PDF172November 16, 2024