ChatPaper.aiChatPaper

MobileNMT: Übersetzung in 15 MB und 30 ms ermöglichen

MobileNMT: Enabling Translation in 15MB and 30ms

June 7, 2023
Autoren: Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu
cs.AI

Zusammenfassung

Die Bereitstellung von NMT-Modellen auf mobilen Geräten ist entscheidend für Datenschutz, niedrige Latenz und Offline-Szenarien. Aufgrund ihrer hohen Modellkapazität sind NMT-Modelle jedoch recht groß. Die Ausführung dieser Modelle auf Geräten ist aufgrund begrenzter Speicherkapazität, Arbeitsspeicher, Rechenleistung und Stromverbrauch eine Herausforderung. Bisherige Arbeiten konzentrieren sich entweder nur auf eine einzelne Metrik wie FLOPs oder auf allgemeine Engines, die für autoregressives Decodieren nicht optimal geeignet sind. In diesem Artikel stellen wir MobileNMT vor, ein System, das Übersetzungen in 15 MB und 30 ms auf Geräten durchführen kann. Wir schlagen eine Reihe von Prinzipien für die Modellkompression in Kombination mit Quantisierung vor. Darüber hinaus implementieren wir eine Engine, die INT8 und Decodierung unterstützt. Durch das Co-Design von Modell und Engine erreichen wir im Vergleich zu bestehenden Systemen eine Beschleunigung um das 47,0-fache und sparen 99,5 % des Speichers bei nur 11,6 % Verlust der BLEU-Punktzahl. Der Code ist öffentlich unter https://github.com/zjersey/Lightseq-ARM verfügbar.
English
Deploying NMT models on mobile devices is essential for privacy, low latency, and offline scenarios. For high model capacity, NMT models are rather large. Running these models on devices is challenging with limited storage, memory, computation, and power consumption. Existing work either only focuses on a single metric such as FLOPs or general engine which is not good at auto-regressive decoding. In this paper, we present MobileNMT, a system that can translate in 15MB and 30ms on devices. We propose a series of principles for model compression when combined with quantization. Further, we implement an engine that is friendly to INT8 and decoding. With the co-design of model and engine, compared with the existing system, we speed up 47.0x and save 99.5% of memory with only 11.6% loss of BLEU. The code is publicly available at https://github.com/zjersey/Lightseq-ARM.
PDF30December 15, 2024