ChatPaper.aiChatPaper

Dolphin: Lange Context als een Nieuwe Modaliteit voor Energie-Efficiënte Taalmodellen op Apparaten

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

August 28, 2024
Auteurs: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI

Samenvatting

Dit artikel introduceert Dolphin, een innovatieve decoder-decoder-architectuur voor energie-efficiënte verwerking van lange contexten in taalmodelen. Onze aanpak richt zich op de aanzienlijke energieconsumptie en latentie-uitdagingen die inherent zijn aan on-device modellen. Dolphin maakt gebruik van een compacte decoder met 0,5B parameters om uitgebreide contextuele informatie te destilleren in een geheugenembedding, waardoor de invoerlengte voor het primaire 7B-parameter decodermodel aanzienlijk wordt verminderd. Geïnspireerd door visie-taalmodelen, hergebruiken we de beeldembeddingprojector om lange tekstuele contexten te coderen, waarbij we uitgebreide context effectief behandelen als een aparte modaliteit. Deze innovatieve methode maakt het mogelijk om aanzienlijk langere contexten te verwerken zonder de gebruikelijke rekenkundige overhead die gepaard gaat met uitgebreide invoerreeksen. Empirische evaluaties tonen een 10-voudige verbetering in energie-efficiëntie en een 5-voudige vermindering in latentie in vergelijking met conventionele methoden voor volledige contextverwerking, zonder verlies van kwaliteit van het antwoord. Ons werk draagt bij aan de ontwikkeling van duurzamere en schaalbare taalmodelen voor on-device toepassingen, en adresseert de kritieke behoefte aan energie-efficiënte en responsieve AI-technologieën in omgevingen met beperkte middelen, terwijl de nauwkeurigheid om lange contexten te begrijpen behouden blijft. Dit onderzoek heeft implicaties voor het bredere veld van natuurlijke taalverwerking, met name op het gebied van efficiënt modelontwerp voor omgevingen met beperkte middelen. Door geavanceerdere AI-mogelijkheden op edge-apparaten mogelijk te maken, opent Dolphin de weg voor geavanceerde taalverwerking in een breed scala aan toepassingen waar rekenkundige middelen schaars zijn. Het Dolphin-model is publiekelijk beschikbaar op https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.

Summary

AI-Generated Summary

PDF434November 16, 2024