Lip Forcing: Difusão Autoregressiva de Poucos Passos para Sincronização Labial em Tempo Real

Resumo

Modelos de sincronização labial baseados em difusão alcançam alta qualidade visual e alinhamento audiovisual, mas a atenção bidirecional de sequência completa e o grande número de etapas de remoção de ruído os tornam impraticáveis para inferência em tempo real. Apresentamos o Lip Forcing, até onde sabemos, o primeiro método de difusão autorregressivo para sincronização labial vídeo-para-vídeo (V2V), que destila um professor de difusão de vídeo bidirecional condicionado a áudio de 14B em alunos causais. Na inferência, os alunos geram cada bloco em apenas duas etapas de remoção de ruído, sem CFG em tempo de inferência, possibilitando sincronização labial em tempo real. Uma análise de trajetória do professor específica para sincronização labial revela um compromisso entre fidelidade e sincronia no CFG: predições sem CFG favorecem a fidelidade à referência, enquanto predições guiadas por CFG favorecem a sincronia dentro de uma faixa intermediária da trajetória. O Lip Forcing traduz esse achado em três componentes derivados da análise: Sync-Window DMD, um cronograma de inferência de duas etapas e uma recompensa baseada em SyncNet. Validamos o Lip Forcing em duas escalas de alunos, ambos destilados do professor de 14B. O aluno de 1.3B atinge streaming em tempo real a 31 FPS, 17,6 vezes mais rápido que seu modelo bidirecional de mesma escala. O aluno de 14B, o maior modelo de difusão relatado para sincronização labial V2V, opera 39,8 vezes mais rápido que seu professor, com fidelidade de referência comparável. O tempo até o primeiro quadro é inferior a um milissegundo em ambas as escalas, muito abaixo de todas as linhas de base de difusão.

English

Diffusion-based lip synchronization models achieve strong visual quality and audio-visual alignment, but full-sequence bidirectional attention and many denoising steps make them impractical for real-time inference. We present Lip Forcing, to our knowledge the first autoregressive diffusion method for video-to-video (V2V) lip synchronization, which distills a 14B audio-conditioned bidirectional video diffusion teacher into causal students. At inference, the students generate each chunk in only two denoising steps without inference-time CFG, enabling real-time lip synchronization. A lip-sync-specific teacher-trajectory analysis reveals a CFG fidelity-sync tradeoff: no-CFG predictions favor reference fidelity, whereas CFG-guided predictions favor synchronization within a mid-trajectory band. Lip Forcing translates this finding into three analysis-derived components: Sync-Window DMD, a two-step inference schedule, and a SyncNet-based reward. We validate Lip Forcing at two student scales, both distilled from the 14B teacher. The 1.3B student crosses into real-time streaming at 31 FPS, 17.6times faster than its same-scale bidirectional model. The 14B student, the largest diffusion model reported for V2V lip synchronization, runs 39.8times faster than its teacher at comparable reference fidelity. Time-to-first-frame is sub-millisecond at both scales, far below every diffusion baseline.