Drax: Spraakherkenning met Discrete Flow Matching
Drax: Speech Recognition with Discrete Flow Matching
October 5, 2025
Auteurs: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI
Samenvatting
Diffusie- en stroomgebaseerde niet-autoregressieve (NAR) modellen hebben veelbelovende resultaten getoond in grootschalige taalmodelering, maar hun potentieel voor automatische spraakherkenning (ASR) blijft grotendeels onontgonnen. Wij stellen Drax voor, een discreet stroommatchingraamwerk voor ASR dat efficiënte parallelle decodering mogelijk maakt. Om de training beter af te stemmen op inferentie, construeren we een audio-geconditioneerd waarschijnlijkheidspad dat het model begeleidt langs trajecten die lijken op waarschijnlijke tussenliggende inferentiefouten, in plaats van directe overgangen van willekeurige ruis naar doelen. Onze theoretische analyse verbindt de generalisatiekloof met divergenties tussen trainings- en inferentie-occupaties, die worden beheerst door cumulatieve snelheidsfouten, wat onze ontwerpkeuze motiveert. Empirische evaluatie toont aan dat onze benadering een herkenningsnauwkeurigheid bereikt die vergelijkbaar is met state-of-the-art spraakmodellen, terwijl er betere nauwkeurigheid-efficiëntie-afwegingen worden geboden. Dit benadrukt discreet stroommatching als een veelbelovende richting voor de verdere ontwikkeling van NAR ASR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong
promise in large language modeling, however, their potential for automatic
speech recognition (ASR) remains largely unexplored. We propose Drax, a
discrete flow matching framework for ASR that enables efficient parallel
decoding. To better align training with inference, we construct an
audio-conditioned probability path that guides the model through trajectories
resembling likely intermediate inference errors, rather than direct random
noise to target transitions. Our theoretical analysis links the generalization
gap to divergences between training and inference occupancies, controlled by
cumulative velocity errors, thereby motivating our design choice. Empirical
evaluation demonstrates that our approach attains recognition accuracy on par
with state-of-the-art speech models while offering improved accuracy-efficiency
trade-offs, highlighting discrete flow matching as a promising direction for
advancing NAR ASR.