Suavizado de Cortes de Salto para Cabezas Parlantes
Jump Cut Smoothing for Talking Heads
January 9, 2024
Autores: Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
cs.AI
Resumen
Un corte por salto ofrece un cambio abrupto, a veces no deseado, en la experiencia de visualización. Presentamos un marco novedoso para suavizar estos cortes por salto, en el contexto de videos de cabezas parlantes. Aprovechamos la apariencia del sujeto a partir de otros fotogramas de origen en el video, fusionándola con una representación de nivel medio impulsada por puntos clave de DensePose y puntos de referencia faciales. Para lograr movimiento, interpolamos los puntos clave y los puntos de referencia entre los fotogramas finales alrededor del corte. Luego, utilizamos una red de traducción de imágenes a partir de los puntos clave y los fotogramas de origen para sintetizar píxeles. Dado que los puntos clave pueden contener errores, proponemos un esquema de atención multimodal para seleccionar y elegir la fuente más apropiada entre múltiples opciones para cada punto clave. Al aprovechar esta representación de nivel medio, nuestro método puede lograr resultados más sólidos que una línea base fuerte de interpolación de video. Demostramos nuestro método en varios cortes por salto en videos de cabezas parlantes, como la eliminación de palabras de relleno, pausas e incluso cortes aleatorios. Nuestros experimentos muestran que podemos lograr transiciones fluidas, incluso en los casos desafiantes donde la cabeza parlante gira o se mueve drásticamente en el corte por salto.
English
A jump cut offers an abrupt, sometimes unwanted change in the viewing
experience. We present a novel framework for smoothing these jump cuts, in the
context of talking head videos. We leverage the appearance of the subject from
the other source frames in the video, fusing it with a mid-level representation
driven by DensePose keypoints and face landmarks. To achieve motion, we
interpolate the keypoints and landmarks between the end frames around the cut.
We then use an image translation network from the keypoints and source frames,
to synthesize pixels. Because keypoints can contain errors, we propose a
cross-modal attention scheme to select and pick the most appropriate source
amongst multiple options for each key point. By leveraging this mid-level
representation, our method can achieve stronger results than a strong video
interpolation baseline. We demonstrate our method on various jump cuts in the
talking head videos, such as cutting filler words, pauses, and even random
cuts. Our experiments show that we can achieve seamless transitions, even in
the challenging cases where the talking head rotates or moves drastically in
the jump cut.