Samba-asr: modernste Spracherkennung unter Verwendung strukturierter Zustandsraummodelle
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Autoren: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Zusammenfassung
Wir schlagen Samba ASR vor, das erste hochmoderne Automatische Spracherkennungsmodell (ASR), das die neuartige Mamba-Architektur sowohl als Encoder als auch als Decoder nutzt, auf der Grundlage von Zustandsraummodellen (SSMs). Im Gegensatz zu transformerbasierten ASR-Modellen, die auf Selbst-Aufmerksamkeitsmechanismen zur Erfassung von Abhängigkeiten angewiesen sind, modelliert Samba ASR effektiv sowohl lokale als auch globale zeitliche Abhängigkeiten unter Verwendung effizienter Zustandsraum-Dynamik und erzielt bemerkenswerte Leistungssteigerungen. Durch die Bewältigung der Einschränkungen von Transformern, wie der quadratischen Skalierung mit Eingangslänge und der Schwierigkeit im Umgang mit weitreichenden Abhängigkeiten, erreicht Samba ASR eine überlegene Genauigkeit und Effizienz. Experimentelle Ergebnisse zeigen, dass Samba ASR bestehende Open-Source transformerbasierte ASR-Modelle in verschiedenen Standard-Benchmarks übertrifft und es als neuen Stand der Technik in der ASR etabliert. Umfangreiche Bewertungen an Benchmark-Datensätzen zeigen signifikante Verbesserungen im Wortfehlerraten (WER), mit wettbewerbsfähiger Leistung auch in Szenarien mit geringen Ressourcen. Darüber hinaus machen die Rechenleistung und die Parameteroptimierung der Mamba-Architektur Samba ASR zu einer skalierbaren und robusten Lösung für verschiedene ASR-Aufgaben. Unsere Beiträge umfassen: Eine neue Samba ASR-Architektur, die die Überlegenheit von SSMs gegenüber transformerbasierten Modellen für die Verarbeitung von Sprachsequenzen zeigt. Eine umfassende Bewertung an öffentlichen Benchmarks, die eine hochmoderne Leistung zeigt. Eine Analyse der Rechenleistung, der Robustheit gegenüber Rauschen und der Sequenzgeneralisierung. Diese Arbeit hebt die Machbarkeit von Mamba SSMs als transformerfreie Alternative für effiziente und präzise ASR hervor. Durch die Nutzung von Fortschritten in der Zustandsraummodellierung setzt Samba ASR einen neuen Maßstab für die ASR-Leistung und zukünftige Forschung.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.Summary
AI-Generated Summary