Levigatura dei Jump Cut per Teste Parlanti
Jump Cut Smoothing for Talking Heads
January 9, 2024
Autori: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI
Abstract
Un jump cut introduce un cambiamento brusco, talvolta indesiderato, nell'esperienza visiva. Presentiamo un nuovo framework per smussare questi jump cut, nel contesto di video con volti parlanti. Sfruttiamo l'aspetto del soggetto dagli altri frame sorgente del video, fondendolo con una rappresentazione di livello medio guidata dai keypoint di DensePose e dai landmark facciali. Per ottenere il movimento, interpoliamo i keypoint e i landmark tra i frame finali attorno al taglio. Utilizziamo quindi una rete di traduzione di immagini dai keypoint e dai frame sorgente per sintetizzare i pixel. Poiché i keypoint possono contenere errori, proponiamo uno schema di attenzione cross-modale per selezionare e scegliere la sorgente più appropriata tra più opzioni per ciascun keypoint. Sfruttando questa rappresentazione di livello medio, il nostro metodo può ottenere risultati migliori rispetto a una solida baseline di interpolazione video. Dimostriamo il nostro metodo su vari jump cut nei video con volti parlanti, come l'eliminazione di parole di riempimento, pause e persino tagli casuali. I nostri esperimenti mostrano che possiamo ottenere transizioni fluide, anche nei casi complessi in cui il volto parlante ruota o si muove drasticamente nel jump cut.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing
experience. We present a novel framework for smoothing these jump cuts, in the
context of talking head videos. We leverage the appearance of the subject from
the other source frames in the video, fusing it with a mid-level representation
driven by DensePose keypoints and face landmarks. To achieve motion, we
interpolate the keypoints and landmarks between the end frames around the cut.
We then use an image translation network from the keypoints and source frames,
to synthesize pixels. Because keypoints can contain errors, we propose a
cross-modal attention scheme to select and pick the most appropriate source
amongst multiple options for each key point. By leveraging this mid-level
representation, our method can achieve stronger results than a strong video
interpolation baseline. We demonstrate our method on various jump cuts in the
talking head videos, such as cutting filler words, pauses, and even random
cuts. Our experiments show that we can achieve seamless transitions, even in
the challenging cases where the talking head rotates or moves drastically in
the jump cut.