ChatPaper.aiChatPaper

Drax: Spracherkennung mit diskretem Fluss-Matching

Drax: Speech Recognition with Discrete Flow Matching

October 5, 2025
papers.authors: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI

papers.abstract

Diffusions- und flussbasierte nicht-autoregressive (NAR) Modelle haben großes Potenzial in der Modellierung großer Sprachmodelle gezeigt, jedoch ist ihr Potenzial für die automatische Spracherkennung (ASR) weitgehend unerforscht. Wir stellen Drax vor, ein diskretes Flussanpassungs-Framework für ASR, das effizientes paralleles Decodieren ermöglicht. Um das Training besser an die Inferenz anzupassen, konstruieren wir einen audio-konditionierten Wahrscheinlichkeitspfad, der das Modell durch Trajektorien führt, die wahrscheinlichen Zwischenfehlern während der Inferenz ähneln, anstatt direkte Übergänge von zufälligem Rauschen zu Zielzuständen zu verwenden. Unsere theoretische Analyse verknüpft die Generalisierungslücke mit Divergenzen zwischen Trainings- und Inferenzbelegungen, die durch kumulative Geschwindigkeitsfehler kontrolliert werden, und motiviert damit unsere Designentscheidung. Die empirische Auswertung zeigt, dass unser Ansatz eine Erkennungsgenauigkeit erreicht, die mit modernsten Sprachmodellen vergleichbar ist, während er verbesserte Kompromisse zwischen Genauigkeit und Effizienz bietet. Dies unterstreicht die diskrete Flussanpassung als vielversprechende Richtung für die Weiterentwicklung von NAR ASR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong promise in large language modeling, however, their potential for automatic speech recognition (ASR) remains largely unexplored. We propose Drax, a discrete flow matching framework for ASR that enables efficient parallel decoding. To better align training with inference, we construct an audio-conditioned probability path that guides the model through trajectories resembling likely intermediate inference errors, rather than direct random noise to target transitions. Our theoretical analysis links the generalization gap to divergences between training and inference occupancies, controlled by cumulative velocity errors, thereby motivating our design choice. Empirical evaluation demonstrates that our approach attains recognition accuracy on par with state-of-the-art speech models while offering improved accuracy-efficiency trade-offs, highlighting discrete flow matching as a promising direction for advancing NAR ASR.
PDF233October 8, 2025