Delfin: Langer Kontext als neue Modalität für energieeffiziente On-Device Sprachmodelle
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models
August 28, 2024
Autoren: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI
Zusammenfassung
Dieses Papier stellt Dolphin vor, eine neuartige Decoder-Decoder-Architektur für die energieeffiziente Verarbeitung langer Kontexte in Sprachmodellen. Unser Ansatz begegnet den signifikanten Herausforderungen hinsichtlich Energieverbrauch und Latenz, die in On-Device-Modellen inhärent sind. Dolphin verwendet einen kompakten Decoder mit 0,5 Milliarden Parametern, um umfangreiche Kontextinformationen in ein Speicherembedding zu destillieren und dadurch die Eingabegröße für das primäre Decoder-Modell mit 7 Milliarden Parametern wesentlich zu reduzieren. Inspiriert von Bild-Sprach-Modellen, nutzen wir den Bild-Embedding-Projektor, um lange Textkontexte zu kodieren und erweiterten Kontext effektiv als eigenständige Modalität zu behandeln. Diese innovative Methode ermöglicht die Verarbeitung wesentlich längerer Kontexte ohne den üblichen Rechenaufwand, der mit erweiterten Eingabesequenzen verbunden ist. Empirische Bewertungen zeigen eine Verbesserung der Energieeffizienz um das Zehnfache und eine Reduzierung der Latenz um das Fünffache im Vergleich zu herkömmlichen Methoden zur Verarbeitung von vollständigen Kontexten, ohne die Qualität der Antwort zu beeinträchtigen. Unsere Arbeit trägt zur Entwicklung nachhaltigerer und skalierbarerer Sprachmodelle für On-Device-Anwendungen bei und adressiert den dringenden Bedarf an energieeffizienten und reaktionsschnellen KI-Technologien in ressourcenbeschränkten Umgebungen, während die Genauigkeit zur Verarbeitung langer Kontexte erhalten bleibt. Diese Forschung hat Auswirkungen auf das breitere Feld der natürlichen Sprachverarbeitung, insbesondere im Bereich des effizienten Modellentwurfs für ressourcenbeschränkte Umgebungen. Indem Dolphin fortschrittlichere KI-Fähigkeiten auf Edge-Geräten ermöglicht, ebnet es den Weg für fortschrittliche Sprachverarbeitung in einer Vielzahl von Anwendungen, in denen Rechenressourcen knapp sind. Das Dolphin-Modell ist öffentlich verfügbar unter https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for
energy-efficient processing of long contexts in language models. Our approach
addresses the significant energy consumption and latency challenges inherent in
on-device models. Dolphin employs a compact 0.5B parameter decoder to distill
extensive contextual information into a memory embedding, substantially
reducing the input length for the primary 7B parameter decoder model. Inspired
by vision-language models, we repurpose the image embedding projector to encode
long textual contexts, effectively treating extended context as a distinct
modality. This innovative method enables processing of substantially longer
contexts without the typical computational overhead associated with extended
input sequences. Empirical evaluations demonstrate a 10-fold improvement in
energy efficiency and a 5-fold reduction in latency compared to conventional
full-length context processing methods without losing quality of the response.
Our work contributes to the development of more sustainable and scalable
language models for on-device applications, addressing the critical need for
energy-efficient and responsive AI technologies in resource-constrained
environments while maintaining the accuracy to understand long contexts. This
research has implications for the broader field of natural language processing,
particularly in the domain of efficient model design for resource-limited
settings. By enabling more sophisticated AI capabilities on edge devices,
Dolphin paves the way for advanced language processing in a wide range of
applications where computational resources are at a premium. The Dolphin model
is publicly available at https://huggingface.co/NexaAIDev/Dolphin.Summary
AI-Generated Summary