Jump Cut-afvloeiing voor pratende hoofden
Jump Cut Smoothing for Talking Heads
January 9, 2024
Auteurs: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI
Samenvatting
Een jump cut veroorzaakt een abrupte, soms ongewenste verandering in de kijkervaring. Wij presenteren een nieuw raamwerk voor het gladstrijken van deze jump cuts, specifiek in de context van talking head video's. We maken gebruik van het uiterlijk van het onderwerp uit de andere bronframes in de video, en combineren dit met een mid-level representatie die wordt gestuurd door DensePose keypoints en gezichtslandmarken. Om beweging te creëren, interpoleren we de keypoints en landmarken tussen de eindframes rond de cut. Vervolgens gebruiken we een beeldvertaalnetwerk om vanuit de keypoints en bronframes pixels te synthetiseren. Omdat keypoints fouten kunnen bevatten, stellen we een cross-modale attentieschema voor om de meest geschikte bron te selecteren uit meerdere opties voor elk keypoint. Door gebruik te maken van deze mid-level representatie, kan onze methode betere resultaten behalen dan een sterke baseline voor video-interpolatie. We demonstreren onze methode op verschillende jump cuts in talking head video's, zoals het verwijderen van stopwoorden, pauzes en zelfs willekeurige cuts. Onze experimenten tonen aan dat we naadloze overgangen kunnen bereiken, zelfs in uitdagende gevallen waarbij de talking head roteert of drastisch beweegt tijdens de jump cut.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing
experience. We present a novel framework for smoothing these jump cuts, in the
context of talking head videos. We leverage the appearance of the subject from
the other source frames in the video, fusing it with a mid-level representation
driven by DensePose keypoints and face landmarks. To achieve motion, we
interpolate the keypoints and landmarks between the end frames around the cut.
We then use an image translation network from the keypoints and source frames,
to synthesize pixels. Because keypoints can contain errors, we propose a
cross-modal attention scheme to select and pick the most appropriate source
amongst multiple options for each key point. By leveraging this mid-level
representation, our method can achieve stronger results than a strong video
interpolation baseline. We demonstrate our method on various jump cuts in the
talking head videos, such as cutting filler words, pauses, and even random
cuts. Our experiments show that we can achieve seamless transitions, even in
the challenging cases where the talking head rotates or moves drastically in
the jump cut.