Drax : Reconnaissance vocale par appariement de flux discret
Drax: Speech Recognition with Discrete Flow Matching
October 5, 2025
papers.authors: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI
papers.abstract
Les modèles non autorégressifs (NAR) basés sur la diffusion et les flux ont montré un fort potentiel dans la modélisation des langues à grande échelle, mais leur application à la reconnaissance automatique de la parole (ASR) reste largement inexplorée. Nous proposons Drax, un cadre de correspondance de flux discret pour l'ASR qui permet un décodage parallèle efficace. Pour mieux aligner l'entraînement avec l'inférence, nous construisons un chemin de probabilité conditionné par l'audio qui guide le modèle à travers des trajectoires ressemblant à des erreurs intermédiaires probables lors de l'inférence, plutôt que des transitions directes du bruit aléatoire vers la cible. Notre analyse théorique relie l'écart de généralisation aux divergences entre les occupations d'entraînement et d'inférence, contrôlées par les erreurs de vitesse cumulées, justifiant ainsi notre choix de conception. L'évaluation empirique démontre que notre approche atteint une précision de reconnaissance comparable aux modèles de parole de pointe tout en offrant de meilleurs compromis précision-efficacité, soulignant la correspondance de flux discret comme une voie prometteuse pour faire progresser l'ASR NAR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong
promise in large language modeling, however, their potential for automatic
speech recognition (ASR) remains largely unexplored. We propose Drax, a
discrete flow matching framework for ASR that enables efficient parallel
decoding. To better align training with inference, we construct an
audio-conditioned probability path that guides the model through trajectories
resembling likely intermediate inference errors, rather than direct random
noise to target transitions. Our theoretical analysis links the generalization
gap to divergences between training and inference occupancies, controlled by
cumulative velocity errors, thereby motivating our design choice. Empirical
evaluation demonstrates that our approach attains recognition accuracy on par
with state-of-the-art speech models while offering improved accuracy-efficiency
trade-offs, highlighting discrete flow matching as a promising direction for
advancing NAR ASR.