Reconnaissance vocale de pointe Samba-asr exploitant des modèles d'espace d'états structurés.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Auteurs: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Résumé
Nous proposons Samba ASR, le premier modèle de Reconnaissance Automatique de la Parole (ASR) de pointe exploitant l'architecture novatrice Mamba à la fois comme encodeur et décodeur, construit sur la base des modèles d'espace d'états (SSM). Contrairement aux modèles ASR basés sur des transformateurs, qui reposent sur des mécanismes d'auto-attention pour capturer les dépendances, Samba ASR modélise efficacement à la fois les dépendances temporelles locales et globales en utilisant des dynamiques d'espace d'états efficaces, réalisant des gains de performance remarquables. En abordant les limitations des transformateurs, tels que l'augmentation quadratique avec la longueur de l'entrée et la difficulté à gérer les dépendances à longue portée, Samba ASR atteint une précision et une efficacité supérieures. Les résultats expérimentaux démontrent que Samba ASR surpasse les modèles ASR basés sur des transformateurs open source existants à travers divers benchmarks standard, l'établissant comme le nouvel état de l'art en ASR. Des évaluations approfondies sur des ensembles de données de référence montrent des améliorations significatives du Taux d'Erreur de Mots (WER), avec des performances compétitives même dans des scénarios à ressources limitées. De plus, l'efficacité computationnelle et l'optimisation des paramètres de l'architecture Mamba font de Samba ASR une solution évolutive et robuste pour diverses tâches ASR. Nos contributions comprennent : une nouvelle architecture Samba ASR démontrant la supériorité des SSM par rapport aux modèles basés sur des transformateurs pour le traitement des séquences vocales. Une évaluation complète sur des benchmarks publics mettant en valeur des performances de pointe. Une analyse de l'efficacité computationnelle, de la robustesse au bruit et de la généralisation des séquences. Ce travail met en lumière la viabilité des SSM Mamba en tant qu'alternative sans transformateur pour une ASR efficace et précise. En exploitant les avancées de la modélisation d'espaces d'états, Samba ASR établit une nouvelle référence en termes de performances ASR et de recherche future.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary