Lip Forcing: Difusión Autoregresiva de Pocos Pasos para Sincronización Labial en Tiempo Real

Resumen

Los modelos de sincronización labial basados en difusión logran una alta calidad visual y una sólida alineación audiovisual, pero la atención bidireccional de secuencia completa y los numerosos pasos de eliminación de ruido los hacen poco prácticos para la inferencia en tiempo real. Presentamos Lip Forcing, según nuestro conocimiento el primer método de difusión autorregresivo para la sincronización labial de video a video (V2V), que destila un maestro de difusión de video bidireccional condicionado por audio de 14B en estudiantes causales. En la inferencia, los estudiantes generan cada fragmento en solo dos pasos de eliminación de ruido sin CFG en tiempo de inferencia, lo que permite la sincronización labial en tiempo real. Un análisis de la trayectoria del maestro específico para sincronización labial revela una compensación entre fidelidad y sincronización del CFG: las predicciones sin CFG favorecen la fidelidad de referencia, mientras que las predicciones guiadas por CFG favorecen la sincronización dentro de una banda de trayectoria media. Lip Forcing traduce este hallazgo en tres componentes derivados del análisis: Sync-Window DMD, un programa de inferencia de dos pasos y una recompensa basada en SyncNet. Validamos Lip Forcing en dos escalas de estudiantes, ambos destilados del maestro de 14B. El estudiante de 1.3B alcanza la transmisión en tiempo real a 31 FPS, 17.6 veces más rápido que su modelo bidireccional de la misma escala. El estudiante de 14B, el modelo de difusión más grande reportado para la sincronización labial V2V, funciona 39.8 veces más rápido que su maestro con una fidelidad de referencia comparable. El tiempo hasta el primer fotograma es inferior a un milisegundo en ambas escalas, muy por debajo de todos los modelos de referencia de difusión.

English

Diffusion-based lip synchronization models achieve strong visual quality and audio-visual alignment, but full-sequence bidirectional attention and many denoising steps make them impractical for real-time inference. We present Lip Forcing, to our knowledge the first autoregressive diffusion method for video-to-video (V2V) lip synchronization, which distills a 14B audio-conditioned bidirectional video diffusion teacher into causal students. At inference, the students generate each chunk in only two denoising steps without inference-time CFG, enabling real-time lip synchronization. A lip-sync-specific teacher-trajectory analysis reveals a CFG fidelity-sync tradeoff: no-CFG predictions favor reference fidelity, whereas CFG-guided predictions favor synchronization within a mid-trajectory band. Lip Forcing translates this finding into three analysis-derived components: Sync-Window DMD, a two-step inference schedule, and a SyncNet-based reward. We validate Lip Forcing at two student scales, both distilled from the 14B teacher. The 1.3B student crosses into real-time streaming at 31 FPS, 17.6times faster than its same-scale bidirectional model. The 14B student, the largest diffusion model reported for V2V lip synchronization, runs 39.8times faster than its teacher at comparable reference fidelity. Time-to-first-frame is sub-millisecond at both scales, far below every diffusion baseline.