Lissage des sauts de coupe pour les visages parlants
Jump Cut Smoothing for Talking Heads
January 9, 2024
papers.authors: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI
papers.abstract
Un saut de montage introduit un changement abrupt, parfois indésirable, dans l'expérience visuelle. Nous présentons un nouveau cadre pour lisser ces sauts de montage, dans le contexte des vidéos de type "talking head". Nous exploitons l'apparence du sujet à partir des autres images sources de la vidéo, en la fusionnant avec une représentation de niveau intermédiaire guidée par les points clés DensePose et les repères faciaux. Pour obtenir un mouvement fluide, nous interpolons les points clés et les repères entre les images de fin autour du saut. Nous utilisons ensuite un réseau de traduction d'images à partir des points clés et des images sources pour synthétiser les pixels. Comme les points clés peuvent contenir des erreurs, nous proposons un mécanisme d'attention croisée pour sélectionner et choisir la source la plus appropriée parmi plusieurs options pour chaque point clé. En exploitant cette représentation de niveau intermédiaire, notre méthode permet d'obtenir des résultats supérieurs à une base solide d'interpolation vidéo. Nous démontrons notre méthode sur divers sauts de montage dans les vidéos de type "talking head", tels que la suppression de mots de remplissage, de pauses, et même de sauts aléatoires. Nos expériences montrent que nous pouvons réaliser des transitions fluides, même dans les cas difficiles où le sujet tourne ou se déplace de manière significative lors du saut de montage.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing
experience. We present a novel framework for smoothing these jump cuts, in the
context of talking head videos. We leverage the appearance of the subject from
the other source frames in the video, fusing it with a mid-level representation
driven by DensePose keypoints and face landmarks. To achieve motion, we
interpolate the keypoints and landmarks between the end frames around the cut.
We then use an image translation network from the keypoints and source frames,
to synthesize pixels. Because keypoints can contain errors, we propose a
cross-modal attention scheme to select and pick the most appropriate source
amongst multiple options for each key point. By leveraging this mid-level
representation, our method can achieve stronger results than a strong video
interpolation baseline. We demonstrate our method on various jump cuts in the
talking head videos, such as cutting filler words, pauses, and even random
cuts. Our experiments show that we can achieve seamless transitions, even in
the challenging cases where the talking head rotates or moves drastically in
the jump cut.