ChatPaper.aiChatPaper

Anwendungsunabhängige Sprachmodellierung für On-Device-Spracherkennung

Application-Agnostic Language Modeling for On-Device ASR

May 16, 2023
Autoren: Markus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil
cs.AI

Zusammenfassung

On-Device-Systeme für automatische Spracherkennung stehen vor mehreren Herausforderungen im Vergleich zu serverbasierten Systemen. Sie müssen strengere Anforderungen in Bezug auf Geschwindigkeit, Speicherplatz und Arbeitsspeicher erfüllen, während sie die gleiche Genauigkeit beibehalten. Oft müssen sie gleichzeitig mehrere Anwendungen mit unterschiedlichen Verteilungen bedienen, wie beispielsweise die Kommunikation mit einem virtuellen Assistenten und die Umwandlung von Sprache in Text. Die einfachste Lösung, um mehrere Anwendungen zu bedienen, besteht darin, anwendungsspezifische (Sprach-)Modelle zu erstellen, was jedoch zu einem erhöhten Speicherbedarf führt. Daher untersuchen wir verschiedene daten- und architekturgetriebene Ansätze zur Sprachmodellierung, um ein einziges anwendungsunabhängiges Modell zu erstellen. Wir schlagen zwei neuartige Feed-Forward-Architekturen vor, die einen optimalen Kompromiss zwischen verschiedenen On-Device-Beschränkungen finden. Im Vergleich zur anwendungsspezifischen Lösung reduziert einer unserer neuartigen Ansätze die Speicherplatzanforderungen um die Hälfte, während die Geschwindigkeit und Genauigkeit des ursprünglichen Modells beibehalten wird.
English
On-device automatic speech recognition systems face several challenges compared to server-based systems. They have to meet stricter constraints in terms of speed, disk size and memory while maintaining the same accuracy. Often they have to serve several applications with different distributions at once, such as communicating with a virtual assistant and speech-to-text. The simplest solution to serve multiple applications is to build application-specific (language) models, but this leads to an increase in memory. Therefore, we explore different data- and architecture-driven language modeling approaches to build a single application-agnostic model. We propose two novel feed-forward architectures that find an optimal trade off between different on-device constraints. In comparison to the application-specific solution, one of our novel approaches reduces the disk size by half, while maintaining speed and accuracy of the original model.
PDF20December 15, 2024