Codice a Livelli Diffusivo per la Generazione Audio da Video

Abstract

La sintesi vocale da video (Video-to-Speech, VTS) mira a generare parlato a partire da un video silenzioso, privo di segnali acustici. Tuttavia, i metodi VTS esistenti non considerano la natura gerarchica del parlato, che spazia dalla semantica di livello grossolano, legata all'identità del parlante, ai dettagli prosodici di livello fine. Questa omissione ostacola un allineamento diretto tra le caratteristiche visive e quelle del parlato a specifici livelli gerarchici durante la corrispondenza delle proprietà. In questo articolo, sfruttando la struttura gerarchica dei codec basati su Quantizzazione Vettoriale Residuale (Residual Vector Quantization, RVQ), proponiamo HiCoDiT, un innovativo Transformer Diffusion gerarchico per codec che sfrutta l'intrinseca gerarchia dei token vocali discreti per ottenere un forte allineamento audiovisivo. Nello specifico, poiché i token di livello inferiore codificano una semantica grossolana legata al parlante e quelli di livello superiore catturano la prosodia di dettaglio, HiCoDiT impiega blocchi di basso e alto livello per generare token ai diversi livelli. I blocchi di basso livello si condizionano sul movimento labiale sincronizzato e sull'identità facciale per catturare il contenuto relativo al parlante, mentre i blocchi di alto livello utilizzano l'espressione facciale per modulare la dinamica prosodica. Infine, per abilitare un condizionamento più efficace dal grossolano al fine, proponiamo una normalizzazione a livello di istanza adattiva a doppia scala che cattura congiuntamente lo stile vocale globale attraverso la normalizzazione per canale e la dinamica prosodica locale attraverso la normalizzazione temporale. Esperimenti estensivi dimostrano che HiCoDiT supera i metodi di riferimento in fedeltà ed espressività, evidenziando il potenziale della modellazione discreta per la VTS. Il codice e una demo audio sono disponibili al seguente indirizzo: https://github.com/Jiaxin-Ye/HiCoDiT.

English

Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the hierarchical nature of speech, which spans coarse speaker-aware semantics to fine-grained prosodic details. This oversight hinders direct alignment between visual and speech features at specific hierarchical levels during property matching. In this paper, leveraging the hierarchical structure of Residual Vector Quantization (RVQ)-based codec, we propose HiCoDiT, a novel Hierarchical Codec Diffusion Transformer that exploits the inherent hierarchy of discrete speech tokens to achieve strong audio-visual alignment. Specifically, since lower-level tokens encode coarse speaker-aware semantics and higher-level tokens capture fine-grained prosody, HiCoDiT employs low-level and high-level blocks to generate tokens at different levels. The low-level blocks condition on lip-synchronized motion and facial identity to capture speaker-aware content, while the high-level blocks use facial expression to modulate prosodic dynamics. Finally, to enable more effective coarse-to-fine conditioning, we propose a dual-scale adaptive instance layer normalization that jointly captures global vocal style through channel-wise normalization and local prosody dynamics through temporal-wise normalization. Extensive experiments demonstrate that HiCoDiT outperforms baselines in fidelity and expressiveness, highlighting the potential of discrete modelling for VTS. The code and speech demo are both available at https://github.com/Jiaxin-Ye/HiCoDiT.

Codice a Livelli Diffusivo per la Generazione Audio da Video

Hierarchical Codec Diffusion for Video-to-Speech Generation

Abstract

Support