Dolphin: Lange Context als een Nieuwe Modaliteit voor Energie-Efficiënte Taalmodellen op Apparaten
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models
August 28, 2024
Auteurs: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI
Samenvatting
Dit artikel introduceert Dolphin, een innovatieve decoder-decoder-architectuur voor energie-efficiënte verwerking van lange contexten in taalmodelen. Onze aanpak richt zich op de aanzienlijke energieconsumptie en latentie-uitdagingen die inherent zijn aan on-device modellen. Dolphin maakt gebruik van een compacte decoder met 0,5B parameters om uitgebreide contextuele informatie te destilleren in een geheugenembedding, waardoor de invoerlengte voor het primaire 7B-parameter decodermodel aanzienlijk wordt verminderd. Geïnspireerd door visie-taalmodelen, hergebruiken we de beeldembeddingprojector om lange tekstuele contexten te coderen, waarbij we uitgebreide context effectief behandelen als een aparte modaliteit. Deze innovatieve methode maakt het mogelijk om aanzienlijk langere contexten te verwerken zonder de gebruikelijke rekenkundige overhead die gepaard gaat met uitgebreide invoerreeksen. Empirische evaluaties tonen een 10-voudige verbetering in energie-efficiëntie en een 5-voudige vermindering in latentie in vergelijking met conventionele methoden voor volledige contextverwerking, zonder verlies van kwaliteit van het antwoord. Ons werk draagt bij aan de ontwikkeling van duurzamere en schaalbare taalmodelen voor on-device toepassingen, en adresseert de kritieke behoefte aan energie-efficiënte en responsieve AI-technologieën in omgevingen met beperkte middelen, terwijl de nauwkeurigheid om lange contexten te begrijpen behouden blijft. Dit onderzoek heeft implicaties voor het bredere veld van natuurlijke taalverwerking, met name op het gebied van efficiënt modelontwerp voor omgevingen met beperkte middelen. Door geavanceerdere AI-mogelijkheden op edge-apparaten mogelijk te maken, opent Dolphin de weg voor geavanceerde taalverwerking in een breed scala aan toepassingen waar rekenkundige middelen schaars zijn. Het Dolphin-model is publiekelijk beschikbaar op https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for
energy-efficient processing of long contexts in language models. Our approach
addresses the significant energy consumption and latency challenges inherent in
on-device models. Dolphin employs a compact 0.5B parameter decoder to distill
extensive contextual information into a memory embedding, substantially
reducing the input length for the primary 7B parameter decoder model. Inspired
by vision-language models, we repurpose the image embedding projector to encode
long textual contexts, effectively treating extended context as a distinct
modality. This innovative method enables processing of substantially longer
contexts without the typical computational overhead associated with extended
input sequences. Empirical evaluations demonstrate a 10-fold improvement in
energy efficiency and a 5-fold reduction in latency compared to conventional
full-length context processing methods without losing quality of the response.
Our work contributes to the development of more sustainable and scalable
language models for on-device applications, addressing the critical need for
energy-efficient and responsive AI technologies in resource-constrained
environments while maintaining the accuracy to understand long contexts. This
research has implications for the broader field of natural language processing,
particularly in the domain of efficient model design for resource-limited
settings. By enabling more sophisticated AI capabilities on edge devices,
Dolphin paves the way for advanced language processing in a wide range of
applications where computational resources are at a premium. The Dolphin model
is publicly available at https://huggingface.co/NexaAIDev/Dolphin.Summary
AI-Generated Summary