ChatPaper.aiChatPaper

Glättung von Sprungschnitten bei sprechenden Personen

Jump Cut Smoothing for Talking Heads

January 9, 2024
papers.authors: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI

papers.abstract

Ein Sprungschnitt führt zu einer abrupten, manchmal unerwünschten Veränderung im Seherlebnis. Wir präsentieren ein neuartiges Framework zur Glättung solcher Sprungschnitte im Kontext von Talking-Head-Videos. Dabei nutzen wir das Erscheinungsbild der Person aus anderen Quellbildern des Videos und kombinieren es mit einer mittleren Repräsentationsebene, die durch DensePose-Keypoints und Gesichtslandmarken gesteuert wird. Um Bewegung zu erzeugen, interpolieren wir die Keypoints und Landmarken zwischen den Endbildern um den Schnitt herum. Anschließend verwenden wir ein Bildübersetzungsnetzwerk, das aus den Keypoints und Quellbildern Pixel synthetisiert. Da Keypoints Fehler enthalten können, schlagen wir ein cross-modales Aufmerksamkeitsschema vor, um für jeden Keypoint die am besten geeignete Quelle aus mehreren Optionen auszuwählen. Durch die Nutzung dieser mittleren Repräsentationsebene erzielt unsere Methode bessere Ergebnisse als ein starkes Videointerpolations-Baseline. Wir demonstrieren unsere Methode anhand verschiedener Sprungschnitte in Talking-Head-Videos, wie dem Entfernen von Füllwörtern, Pausen und sogar zufälligen Schnitten. Unsere Experimente zeigen, dass wir nahtlose Übergänge erreichen können, selbst in anspruchsvollen Fällen, in denen der Talking Head sich im Sprungschnitt dreht oder sich stark bewegt.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of talking head videos. We leverage the appearance of the subject from the other source frames in the video, fusing it with a mid-level representation driven by DensePose keypoints and face landmarks. To achieve motion, we interpolate the keypoints and landmarks between the end frames around the cut. We then use an image translation network from the keypoints and source frames, to synthesize pixels. Because keypoints can contain errors, we propose a cross-modal attention scheme to select and pick the most appropriate source amongst multiple options for each key point. By leveraging this mid-level representation, our method can achieve stronger results than a strong video interpolation baseline. We demonstrate our method on various jump cuts in the talking head videos, such as cutting filler words, pauses, and even random cuts. Our experiments show that we can achieve seamless transitions, even in the challenging cases where the talking head rotates or moves drastically in the jump cut.
PDF210December 15, 2024