MobileNMT: Übersetzung in 15 MB und 30 ms ermöglichen
MobileNMT: Enabling Translation in 15MB and 30ms
June 7, 2023
Autoren: Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu
cs.AI
Zusammenfassung
Die Bereitstellung von NMT-Modellen auf mobilen Geräten ist entscheidend für Datenschutz, niedrige Latenz und Offline-Szenarien. Aufgrund ihrer hohen Modellkapazität sind NMT-Modelle jedoch recht groß. Die Ausführung dieser Modelle auf Geräten ist aufgrund begrenzter Speicherkapazität, Arbeitsspeicher, Rechenleistung und Stromverbrauch eine Herausforderung. Bisherige Arbeiten konzentrieren sich entweder nur auf eine einzelne Metrik wie FLOPs oder auf allgemeine Engines, die für autoregressives Decodieren nicht optimal geeignet sind. In diesem Artikel stellen wir MobileNMT vor, ein System, das Übersetzungen in 15 MB und 30 ms auf Geräten durchführen kann. Wir schlagen eine Reihe von Prinzipien für die Modellkompression in Kombination mit Quantisierung vor. Darüber hinaus implementieren wir eine Engine, die INT8 und Decodierung unterstützt. Durch das Co-Design von Modell und Engine erreichen wir im Vergleich zu bestehenden Systemen eine Beschleunigung um das 47,0-fache und sparen 99,5 % des Speichers bei nur 11,6 % Verlust der BLEU-Punktzahl. Der Code ist öffentlich unter https://github.com/zjersey/Lightseq-ARM verfügbar.
English
Deploying NMT models on mobile devices is essential for privacy, low latency,
and offline scenarios. For high model capacity, NMT models are rather large.
Running these models on devices is challenging with limited storage, memory,
computation, and power consumption. Existing work either only focuses on a
single metric such as FLOPs or general engine which is not good at
auto-regressive decoding. In this paper, we present MobileNMT, a system that
can translate in 15MB and 30ms on devices. We propose a series of principles
for model compression when combined with quantization. Further, we implement an
engine that is friendly to INT8 and decoding. With the co-design of model and
engine, compared with the existing system, we speed up 47.0x and save 99.5% of
memory with only 11.6% loss of BLEU. The code is publicly available at
https://github.com/zjersey/Lightseq-ARM.