ChatPaper.aiChatPaper

Drax: Reconocimiento de Voz con Emparejamiento de Flujo Discreto

Drax: Speech Recognition with Discrete Flow Matching

October 5, 2025
Autores: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI

Resumen

Los modelos no autorregresivos (NAR) basados en difusión y flujo han mostrado un gran potencial en el modelado de lenguaje a gran escala; sin embargo, su aplicación en el reconocimiento automático del habla (ASR, por sus siglas en inglés) sigue siendo en gran medida inexplorada. Proponemos Drax, un marco de emparejamiento de flujo discreto para ASR que permite una decodificación paralela eficiente. Para alinear mejor el entrenamiento con la inferencia, construimos una trayectoria de probabilidad condicionada por audio que guía al modelo a través de trayectorias que se asemejan a errores intermedios probables durante la inferencia, en lugar de transiciones directas de ruido aleatorio a objetivos. Nuestro análisis teórico vincula la brecha de generalización con las divergencias entre las ocupaciones de entrenamiento e inferencia, controladas por errores de velocidad acumulados, lo que motiva nuestra elección de diseño. La evaluación empírica demuestra que nuestro enfoque alcanza una precisión de reconocimiento comparable con los modelos de habla más avanzados, al mismo tiempo que ofrece mejores compensaciones entre precisión y eficiencia, destacando el emparejamiento de flujo discreto como una dirección prometedora para avanzar en el ASR NAR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong promise in large language modeling, however, their potential for automatic speech recognition (ASR) remains largely unexplored. We propose Drax, a discrete flow matching framework for ASR that enables efficient parallel decoding. To better align training with inference, we construct an audio-conditioned probability path that guides the model through trajectories resembling likely intermediate inference errors, rather than direct random noise to target transitions. Our theoretical analysis links the generalization gap to divergences between training and inference occupancies, controlled by cumulative velocity errors, thereby motivating our design choice. Empirical evaluation demonstrates that our approach attains recognition accuracy on par with state-of-the-art speech models while offering improved accuracy-efficiency trade-offs, highlighting discrete flow matching as a promising direction for advancing NAR ASR.
PDF233October 8, 2025