Dolphin: Contexto Longo como uma Nova Modalidade para Modelos de Linguagem Eficientes em Energia no Dispositivo
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models
August 28, 2024
Autores: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI
Resumo
Este artigo apresenta o Dolphin, uma arquitetura inovadora de decodificador-decodificador para processamento eficiente de longos contextos em modelos de linguagem. Nossa abordagem aborda os significativos desafios de consumo de energia e latência inerentes aos modelos em dispositivos. O Dolphin emprega um decodificador compacto de 0.5B parâmetros para destilar informações contextuais extensas em uma incorporação de memória, reduzindo substancialmente o comprimento de entrada para o modelo principal de decodificador de 7B parâmetros. Inspirados em modelos de visão-linguagem, reaproveitamos o projetor de incorporação de imagem para codificar contextos textuais longos, tratando efetivamente o contexto estendido como uma modalidade distinta. Este método inovador permite o processamento de contextos substancialmente mais longos sem o sobrecusto computacional típico associado a sequências de entrada estendidas. Avaliações empíricas demonstram uma melhoria de 10 vezes na eficiência energética e uma redução de 5 vezes na latência em comparação com métodos convencionais de processamento de contexto completo sem perder a qualidade da resposta. Nosso trabalho contribui para o desenvolvimento de modelos de linguagem mais sustentáveis e escaláveis para aplicações em dispositivos, abordando a necessidade crítica de tecnologias de IA eficientes em energia e responsivas em ambientes com recursos limitados, mantendo a precisão para compreender contextos longos. Esta pesquisa tem implicações para o campo mais amplo de processamento de linguagem natural, especialmente no domínio de design eficiente de modelos para configurações com recursos limitados. Ao possibilitar capacidades de IA mais sofisticadas em dispositivos de borda, o Dolphin abre caminho para o processamento de linguagem avançado em uma ampla gama de aplicações onde os recursos computacionais são escassos. O modelo Dolphin está publicamente disponível em https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for
energy-efficient processing of long contexts in language models. Our approach
addresses the significant energy consumption and latency challenges inherent in
on-device models. Dolphin employs a compact 0.5B parameter decoder to distill
extensive contextual information into a memory embedding, substantially
reducing the input length for the primary 7B parameter decoder model. Inspired
by vision-language models, we repurpose the image embedding projector to encode
long textual contexts, effectively treating extended context as a distinct
modality. This innovative method enables processing of substantially longer
contexts without the typical computational overhead associated with extended
input sequences. Empirical evaluations demonstrate a 10-fold improvement in
energy efficiency and a 5-fold reduction in latency compared to conventional
full-length context processing methods without losing quality of the response.
Our work contributes to the development of more sustainable and scalable
language models for on-device applications, addressing the critical need for
energy-efficient and responsive AI technologies in resource-constrained
environments while maintaining the accuracy to understand long contexts. This
research has implications for the broader field of natural language processing,
particularly in the domain of efficient model design for resource-limited
settings. By enabling more sophisticated AI capabilities on edge devices,
Dolphin paves the way for advanced language processing in a wide range of
applications where computational resources are at a premium. The Dolphin model
is publicly available at https://huggingface.co/NexaAIDev/Dolphin.Summary
AI-Generated Summary