Drax: Reconhecimento de Fala com Fluxo Discreto Correspondente
Drax: Speech Recognition with Discrete Flow Matching
October 5, 2025
Autores: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI
Resumo
Modelos não autoregressivos (NAR) baseados em difusão e fluxo têm demonstrado grande potencial na modelagem de linguagem em larga escala, porém, seu potencial para reconhecimento automático de fala (ASR) permanece amplamente inexplorado. Propomos o Drax, uma estrutura de correspondência de fluxo discreto para ASR que permite decodificação paralela eficiente. Para melhor alinhar o treinamento com a inferência, construímos um caminho de probabilidade condicionado por áudio que guia o modelo por trajetórias que se assemelham a erros intermediários prováveis durante a inferência, em vez de transições diretas de ruído aleatório para o alvo. Nossa análise teórica vincula a lacuna de generalização a divergências entre as ocupações de treinamento e inferência, controladas por erros de velocidade cumulativos, motivando assim nossa escolha de design. A avaliação empírica demonstra que nossa abordagem alcança precisão de reconhecimento comparável aos modelos de fala state-of-the-art, ao mesmo tempo que oferece melhores compensações entre precisão e eficiência, destacando a correspondência de fluxo discreto como uma direção promissora para o avanço do ASR NAR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong
promise in large language modeling, however, their potential for automatic
speech recognition (ASR) remains largely unexplored. We propose Drax, a
discrete flow matching framework for ASR that enables efficient parallel
decoding. To better align training with inference, we construct an
audio-conditioned probability path that guides the model through trajectories
resembling likely intermediate inference errors, rather than direct random
noise to target transitions. Our theoretical analysis links the generalization
gap to divergences between training and inference occupancies, controlled by
cumulative velocity errors, thereby motivating our design choice. Empirical
evaluation demonstrates that our approach attains recognition accuracy on par
with state-of-the-art speech models while offering improved accuracy-efficiency
trade-offs, highlighting discrete flow matching as a promising direction for
advancing NAR ASR.