Forçage labial : Diffusion autorégressive en quelques étapes pour la synchronisation labiale en temps réel

Résumé

Les modèles de synchronisation labiale basés sur la diffusion atteignent une forte qualité visuelle et un alignement audio-visuel, mais l'attention bidirectionnelle sur la séquence complète et le nombre élevé d'étapes de débruitage les rendent impracticalbles pour l'inférence en temps réel. Nous présentons Lip Forcing, à notre connaissance la première méthode de diffusion autorégressive pour la synchronisation labiale vidéo-vers-vidéo (V2V), qui distille un enseignant de diffusion vidéo bidirectionnelle conditionné par l'audio de 14B en étudiants causaux. Lors de l'inférence, les étudiants génèrent chaque segment en seulement deux étapes de débruitage sans CFG lors de l'inférence, permettant une synchronisation labiale en temps réel. Une analyse de la trajectoire de l'enseignant spécifique à la synchronisation labiale révèle un compromis fidélité-synchronisation du CFG : les prédictions sans CFG favorisent la fidélité de référence, tandis que les prédictions guidées par CFG favorisent la synchronisation dans une bande de trajectoire médiane. Lip Forcing traduit cette découverte en trois composants dérivés de l'analyse : Sync-Window DMD, un calendrier d'inférence en deux étapes et une récompense basée sur SyncNet. Nous validons Lip Forcing à deux échelles d'étudiants, tous deux distillés à partir de l'enseignant de 14B. L'étudiant de 1,3B atteint un streaming en temps réel à 31 FPS, soit 17,6 fois plus rapide que son modèle bidirectionnel de même échelle. L'étudiant de 14B, le plus grand modèle de diffusion rapporté pour la synchronisation labiale V2V, fonctionne 39,8 fois plus rapidement que son enseignant avec une fidélité de référence comparable. Le temps jusqu'à la première image est inférieur à la milliseconde aux deux échelles, bien en dessous de toutes les références de diffusion.

English

Diffusion-based lip synchronization models achieve strong visual quality and audio-visual alignment, but full-sequence bidirectional attention and many denoising steps make them impractical for real-time inference. We present Lip Forcing, to our knowledge the first autoregressive diffusion method for video-to-video (V2V) lip synchronization, which distills a 14B audio-conditioned bidirectional video diffusion teacher into causal students. At inference, the students generate each chunk in only two denoising steps without inference-time CFG, enabling real-time lip synchronization. A lip-sync-specific teacher-trajectory analysis reveals a CFG fidelity-sync tradeoff: no-CFG predictions favor reference fidelity, whereas CFG-guided predictions favor synchronization within a mid-trajectory band. Lip Forcing translates this finding into three analysis-derived components: Sync-Window DMD, a two-step inference schedule, and a SyncNet-based reward. We validate Lip Forcing at two student scales, both distilled from the 14B teacher. The 1.3B student crosses into real-time streaming at 31 FPS, 17.6times faster than its same-scale bidirectional model. The 14B student, the largest diffusion model reported for V2V lip synchronization, runs 39.8times faster than its teacher at comparable reference fidelity. Time-to-first-frame is sub-millisecond at both scales, far below every diffusion baseline.