Reconocimiento de voz de vanguardia Samba-asr aprovechando modelos estructurados de espacio de estados.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models
January 6, 2025
Autores: Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi
cs.AI
Resumen
Proponemos Samba ASR, el primer modelo de Reconocimiento Automático del Habla (ASR) de última generación que aprovecha la novedosa arquitectura Mamba tanto como codificador como decodificador, construido sobre los fundamentos de los modelos de espacio de estados (SSMs). A diferencia de los modelos de ASR basados en transformadores, que dependen de mecanismos de autoatención para capturar dependencias, Samba ASR modela eficazmente tanto las dependencias temporales locales como globales utilizando dinámicas eficientes de espacio de estados, logrando notables mejoras de rendimiento. Al abordar las limitaciones de los transformadores, como la escalabilidad cuadrática con la longitud de entrada y la dificultad para manejar dependencias a larga distancia, Samba ASR logra una precisión y eficiencia superiores.
Los resultados experimentales demuestran que Samba ASR supera a los modelos de ASR basados en transformadores de código abierto existentes en diversos benchmarks estándar, estableciéndose como el nuevo estado del arte en ASR. Evaluaciones extensas en conjuntos de datos de referencia muestran mejoras significativas en la Tasa de Error de Palabras (WER), con un rendimiento competitivo incluso en escenarios de recursos limitados. Además, la eficiencia computacional y la optimización de parámetros de la arquitectura Mamba hacen de Samba ASR una solución escalable y robusta para diversas tareas de ASR.
Nuestras contribuciones incluyen:
Una nueva arquitectura Samba ASR que demuestra la superioridad de los SSMs sobre los modelos basados en transformadores para el procesamiento de secuencias de habla. Una evaluación exhaustiva en benchmarks públicos que muestra un rendimiento de última generación. Un análisis de eficiencia computacional, robustez al ruido y generalización de secuencias. Este trabajo destaca la viabilidad de los SSMs de Mamba como una alternativa libre de transformadores para un ASR eficiente y preciso. Al aprovechar los avances en modelado de espacio de estados, Samba ASR establece un nuevo punto de referencia para el rendimiento de ASR y la investigación futura.
English
We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition
(ASR) model leveraging the novel Mamba architecture as both encoder and
decoder, built on the foundation of state-space models (SSMs). Unlike
transformer-based ASR models, which rely on self-attention mechanisms to
capture dependencies, Samba ASR effectively models both local and global
temporal dependencies using efficient state-space dynamics, achieving
remarkable performance gains. By addressing the limitations of transformers,
such as quadratic scaling with input length and difficulty in handling
long-range dependencies, Samba ASR achieves superior accuracy and efficiency.
Experimental results demonstrate that Samba ASR surpasses existing
open-source transformer-based ASR models across various standard benchmarks,
establishing it as the new state of the art in ASR. Extensive evaluations on
benchmark datasets show significant improvements in Word Error Rate (WER), with
competitive performance even in low-resource scenarios. Furthermore, the
computational efficiency and parameter optimization of the Mamba architecture
make Samba ASR a scalable and robust solution for diverse ASR tasks.
Our contributions include:
A new Samba ASR architecture demonstrating the superiority of SSMs over
transformer-based models for speech sequence processing. A comprehensive
evaluation on public benchmarks showcasing state-of-the-art performance. An
analysis of computational efficiency, robustness to noise, and sequence
generalization. This work highlights the viability of Mamba SSMs as a
transformer-free alternative for efficient and accurate ASR. By leveraging
state-space modeling advancements, Samba ASR sets a new benchmark for ASR
performance and future research.