Drax: Riconoscimento Vocale con Discrete Flow Matching
Drax: Speech Recognition with Discrete Flow Matching
October 5, 2025
Autori: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI
Abstract
I modelli non autoregressivi (NAR) basati su diffusione e flusso hanno dimostrato un forte potenziale nella modellazione del linguaggio su larga scala, tuttavia il loro potenziale per il riconoscimento automatico del parlato (ASR) rimane in gran parte inesplorato. Proponiamo Drax, un framework di discrete flow matching per l'ASR che consente un decoding parallelo efficiente. Per allineare meglio l'addestramento all'inferenza, costruiamo un percorso di probabilità condizionato dall'audio che guida il modello attraverso traiettorie che assomigliano a probabili errori intermedi di inferenza, piuttosto che a transizioni dirette da rumore casuale a target. La nostra analisi teorica collega il gap di generalizzazione alle divergenze tra le occupazioni di addestramento e inferenza, controllate da errori cumulativi di velocità, motivando così la nostra scelta progettuale. La valutazione empirica dimostra che il nostro approccio raggiunge un'accuratezza di riconoscimento pari a quella dei modelli di parlato all'avanguardia, offrendo al contempo migliori compromessi tra accuratezza ed efficienza, evidenziando il discrete flow matching come una direzione promettente per l'avanzamento dell'ASR NAR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong
promise in large language modeling, however, their potential for automatic
speech recognition (ASR) remains largely unexplored. We propose Drax, a
discrete flow matching framework for ASR that enables efficient parallel
decoding. To better align training with inference, we construct an
audio-conditioned probability path that guides the model through trajectories
resembling likely intermediate inference errors, rather than direct random
noise to target transitions. Our theoretical analysis links the generalization
gap to divergences between training and inference occupancies, controlled by
cumulative velocity errors, thereby motivating our design choice. Empirical
evaluation demonstrates that our approach attains recognition accuracy on par
with state-of-the-art speech models while offering improved accuracy-efficiency
trade-offs, highlighting discrete flow matching as a promising direction for
advancing NAR ASR.