Samba-asr - это передовая система распознавания речи, использующая структурированные модели пространства состояний.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Авторы: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Аннотация
Мы предлагаем Samba ASR, первую передовую модель автоматического распознавания речи (ASR), использующую новую архитектуру Mamba как кодер и декодер, построенную на основе моделей пространства состояний (SSM). В отличие от моделей ASR на основе трансформеров, которые полагаются на механизмы самовнимания для улавливания зависимостей, Samba ASR эффективно моделирует как локальные, так и глобальные временные зависимости, используя эффективную динамику пространства состояний, достигая заметного повышения производительности. Решая ограничения трансформеров, такие как квадратичное масштабирование по длине ввода и сложности в обработке дальних зависимостей, Samba ASR достигает превосходной точности и эффективности. Экспериментальные результаты показывают, что Samba ASR превосходит существующие модели ASR на основе трансформеров с открытым исходным кодом по различным стандартным бенчмаркам, утверждаясь как новый золотой стандарт в области ASR. Обширные оценки на бенчмарках показывают значительное улучшение в показателях ошибок слов (WER), обеспечивая конкурентоспособную производительность даже в условиях ограниченных ресурсов. Более того, вычислительная эффективность и оптимизация параметров архитектуры Mamba делают Samba ASR масштабируемым и надежным решением для различных задач ASR. Наши вклады включают: новую архитектуру Samba ASR, демонстрирующую превосходство SSM над моделями на основе трансформеров для обработки речевых последовательностей. Комплексную оценку на общедоступных бенчмарках, демонстрирующую передовую производительность. Анализ вычислительной эффективности, устойчивости к шуму и обобщения последовательностей. Эта работа подчеркивает жизнеспособность Mamba SSM как альтернативы без трансформеров для эффективного и точного ASR. Используя преимущества моделирования пространства состояний, Samba ASR устанавливает новый стандарт производительности ASR и будущих исследований.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary