MobileNMT: Habilitando Tradução em 15MB e 30ms

Resumo

A implantação de modelos de Tradução Automática Neural (NMT) em dispositivos móveis é essencial para privacidade, baixa latência e cenários offline. Para alta capacidade de modelo, os modelos NMT são bastante grandes. Executar esses modelos em dispositivos é desafiador devido ao armazenamento, memória, computação e consumo de energia limitados. Trabalhos existentes focam apenas em uma única métrica, como FLOPs, ou em um mecanismo geral que não é eficiente na decodificação autoregressiva. Neste artigo, apresentamos o MobileNMT, um sistema que pode traduzir em 15MB e 30ms em dispositivos. Propomos uma série de princípios para compressão de modelos quando combinada com quantização. Além disso, implementamos um mecanismo que é amigável ao INT8 e à decodificação. Com o co-design de modelo e mecanismo, em comparação com o sistema existente, aceleramos em 47,0x e economizamos 99,5% da memória com apenas 11,6% de perda no BLEU. O código está disponível publicamente em https://github.com/zjersey/Lightseq-ARM.

English

Deploying NMT models on mobile devices is essential for privacy, low latency, and offline scenarios. For high model capacity, NMT models are rather large. Running these models on devices is challenging with limited storage, memory, computation, and power consumption. Existing work either only focuses on a single metric such as FLOPs or general engine which is not good at auto-regressive decoding. In this paper, we present MobileNMT, a system that can translate in 15MB and 30ms on devices. We propose a series of principles for model compression when combined with quantization. Further, we implement an engine that is friendly to INT8 and decoding. With the co-design of model and engine, compared with the existing system, we speed up 47.0x and save 99.5% of memory with only 11.6% loss of BLEU. The code is publicly available at https://github.com/zjersey/Lightseq-ARM.

MobileNMT: Habilitando Tradução em 15MB e 30ms

MobileNMT: Enabling Translation in 15MB and 30ms

Resumo

Support