ChatPaper.aiChatPaper

Drax: Распознавание речи с дискретным согласованием потоков

Drax: Speech Recognition with Discrete Flow Matching

October 5, 2025
Авторы: Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya
cs.AI

Аннотация

Диффузионные и flow-based неавторегрессивные (NAR) модели продемонстрировали значительный потенциал в задачах моделирования больших языков, однако их возможности для автоматического распознавания речи (ASR) остаются в значительной степени неисследованными. Мы предлагаем Drax — дискретный фреймворк flow matching для ASR, который обеспечивает эффективное параллельное декодирование. Для лучшего согласования обучения и вывода мы строим аудио-условный вероятностный путь, который направляет модель через траектории, напоминающие вероятные промежуточные ошибки вывода, вместо прямых переходов от случайного шума к целевым состояниям. Наш теоретический анализ связывает разрыв в обобщении с расхождениями между распределениями данных в обучении и выводе, контролируемыми кумулятивными ошибками скорости, что мотивирует наш выбор архитектуры. Эмпирическая оценка показывает, что наш подход достигает точности распознавания, сопоставимой с современными моделями речи, при этом предлагая улучшенный баланс между точностью и эффективностью, что подчеркивает дискретное flow matching как перспективное направление для развития NAR ASR.
English
Diffusion and flow-based non-autoregressive (NAR) models have shown strong promise in large language modeling, however, their potential for automatic speech recognition (ASR) remains largely unexplored. We propose Drax, a discrete flow matching framework for ASR that enables efficient parallel decoding. To better align training with inference, we construct an audio-conditioned probability path that guides the model through trajectories resembling likely intermediate inference errors, rather than direct random noise to target transitions. Our theoretical analysis links the generalization gap to divergences between training and inference occupancies, controlled by cumulative velocity errors, thereby motivating our design choice. Empirical evaluation demonstrates that our approach attains recognition accuracy on par with state-of-the-art speech models while offering improved accuracy-efficiency trade-offs, highlighting discrete flow matching as a promising direction for advancing NAR ASR.
PDF233October 8, 2025