ChatPaper.aiChatPaper

Dolphin: Contexto Longo como uma Nova Modalidade para Modelos de Linguagem Eficientes em Energia no Dispositivo

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

August 28, 2024
Autores: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI

Resumo

Este artigo apresenta o Dolphin, uma arquitetura inovadora de decodificador-decodificador para processamento eficiente de longos contextos em modelos de linguagem. Nossa abordagem aborda os significativos desafios de consumo de energia e latência inerentes aos modelos em dispositivos. O Dolphin emprega um decodificador compacto de 0.5B parâmetros para destilar informações contextuais extensas em uma incorporação de memória, reduzindo substancialmente o comprimento de entrada para o modelo principal de decodificador de 7B parâmetros. Inspirados em modelos de visão-linguagem, reaproveitamos o projetor de incorporação de imagem para codificar contextos textuais longos, tratando efetivamente o contexto estendido como uma modalidade distinta. Este método inovador permite o processamento de contextos substancialmente mais longos sem o sobrecusto computacional típico associado a sequências de entrada estendidas. Avaliações empíricas demonstram uma melhoria de 10 vezes na eficiência energética e uma redução de 5 vezes na latência em comparação com métodos convencionais de processamento de contexto completo sem perder a qualidade da resposta. Nosso trabalho contribui para o desenvolvimento de modelos de linguagem mais sustentáveis e escaláveis para aplicações em dispositivos, abordando a necessidade crítica de tecnologias de IA eficientes em energia e responsivas em ambientes com recursos limitados, mantendo a precisão para compreender contextos longos. Esta pesquisa tem implicações para o campo mais amplo de processamento de linguagem natural, especialmente no domínio de design eficiente de modelos para configurações com recursos limitados. Ao possibilitar capacidades de IA mais sofisticadas em dispositivos de borda, o Dolphin abre caminho para o processamento de linguagem avançado em uma ampla gama de aplicações onde os recursos computacionais são escassos. O modelo Dolphin está publicamente disponível em https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.

Summary

AI-Generated Summary

PDF434November 16, 2024