Reconocimiento de voz de vanguardia Samba-asr aprovechando modelos estructurados de espacio de estados.

Resumen

Proponemos Samba ASR, el primer modelo de Reconocimiento Automático del Habla (ASR) de última generación que aprovecha la novedosa arquitectura Mamba tanto como codificador como decodificador, construido sobre los fundamentos de los modelos de espacio de estados (SSMs). A diferencia de los modelos de ASR basados en transformadores, que dependen de mecanismos de autoatención para capturar dependencias, Samba ASR modela eficazmente tanto las dependencias temporales locales como globales utilizando dinámicas eficientes de espacio de estados, logrando notables mejoras de rendimiento. Al abordar las limitaciones de los transformadores, como la escalabilidad cuadrática con la longitud de entrada y la dificultad para manejar dependencias a larga distancia, Samba ASR logra una precisión y eficiencia superiores. Los resultados experimentales demuestran que Samba ASR supera a los modelos de ASR basados en transformadores de código abierto existentes en diversos benchmarks estándar, estableciéndose como el nuevo estado del arte en ASR. Evaluaciones extensas en conjuntos de datos de referencia muestran mejoras significativas en la Tasa de Error de Palabras (WER), con un rendimiento competitivo incluso en escenarios de recursos limitados. Además, la eficiencia computacional y la optimización de parámetros de la arquitectura Mamba hacen de Samba ASR una solución escalable y robusta para diversas tareas de ASR. Nuestras contribuciones incluyen: Una nueva arquitectura Samba ASR que demuestra la superioridad de los SSMs sobre los modelos basados en transformadores para el procesamiento de secuencias de habla. Una evaluación exhaustiva en benchmarks públicos que muestra un rendimiento de última generación. Un análisis de eficiencia computacional, robustez al ruido y generalización de secuencias. Este trabajo destaca la viabilidad de los SSMs de Mamba como una alternativa libre de transformadores para un ASR eficiente y preciso. Al aprovechar los avances en modelado de espacio de estados, Samba ASR establece un nuevo punto de referencia para el rendimiento de ASR y la investigación futura.

English

We propose Samba ASR, the first state-of-the-art Automatic Speech Recognition (ASR) model leveraging the novel Mamba architecture as both encoder and decoder, built on the foundation of state-space models (SSMs). Unlike transformer-based ASR models, which rely on self-attention mechanisms to capture dependencies, Samba ASR effectively models both local and global temporal dependencies using efficient state-space dynamics, achieving remarkable performance gains. By addressing the limitations of transformers, such as quadratic scaling with input length and difficulty in handling long-range dependencies, Samba ASR achieves superior accuracy and efficiency. Experimental results demonstrate that Samba ASR surpasses existing open-source transformer-based ASR models across various standard benchmarks, establishing it as the new state of the art in ASR. Extensive evaluations on benchmark datasets show significant improvements in Word Error Rate (WER), with competitive performance even in low-resource scenarios. Furthermore, the computational efficiency and parameter optimization of the Mamba architecture make Samba ASR a scalable and robust solution for diverse ASR tasks. Our contributions include: A new Samba ASR architecture demonstrating the superiority of SSMs over transformer-based models for speech sequence processing. A comprehensive evaluation on public benchmarks showcasing state-of-the-art performance. An analysis of computational efficiency, robustness to noise, and sequence generalization. This work highlights the viability of Mamba SSMs as a transformer-free alternative for efficient and accurate ASR. By leveraging state-space modeling advancements, Samba ASR sets a new benchmark for ASR performance and future research.

Reconocimiento de voz de vanguardia Samba-asr aprovechando modelos estructurados de espacio de estados.

Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Resumen

Support