ChatPaper.aiChatPaper

Jump Cut-afvloeiing voor pratende hoofden

Jump Cut Smoothing for Talking Heads

January 9, 2024
Auteurs: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI

Samenvatting

Een jump cut veroorzaakt een abrupte, soms ongewenste verandering in de kijkervaring. Wij presenteren een nieuw raamwerk voor het gladstrijken van deze jump cuts, specifiek in de context van talking head video's. We maken gebruik van het uiterlijk van het onderwerp uit de andere bronframes in de video, en combineren dit met een mid-level representatie die wordt gestuurd door DensePose keypoints en gezichtslandmarken. Om beweging te creëren, interpoleren we de keypoints en landmarken tussen de eindframes rond de cut. Vervolgens gebruiken we een beeldvertaalnetwerk om vanuit de keypoints en bronframes pixels te synthetiseren. Omdat keypoints fouten kunnen bevatten, stellen we een cross-modale attentieschema voor om de meest geschikte bron te selecteren uit meerdere opties voor elk keypoint. Door gebruik te maken van deze mid-level representatie, kan onze methode betere resultaten behalen dan een sterke baseline voor video-interpolatie. We demonstreren onze methode op verschillende jump cuts in talking head video's, zoals het verwijderen van stopwoorden, pauzes en zelfs willekeurige cuts. Onze experimenten tonen aan dat we naadloze overgangen kunnen bereiken, zelfs in uitdagende gevallen waarbij de talking head roteert of drastisch beweegt tijdens de jump cut.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of talking head videos. We leverage the appearance of the subject from the other source frames in the video, fusing it with a mid-level representation driven by DensePose keypoints and face landmarks. To achieve motion, we interpolate the keypoints and landmarks between the end frames around the cut. We then use an image translation network from the keypoints and source frames, to synthesize pixels. Because keypoints can contain errors, we propose a cross-modal attention scheme to select and pick the most appropriate source amongst multiple options for each key point. By leveraging this mid-level representation, our method can achieve stronger results than a strong video interpolation baseline. We demonstrate our method on various jump cuts in the talking head videos, such as cutting filler words, pauses, and even random cuts. Our experiments show that we can achieve seamless transitions, even in the challenging cases where the talking head rotates or moves drastically in the jump cut.
PDF200December 15, 2024