Дельфин: Долгий контекст как новая модальность для энергоэффективных языковых моделей на устройстве.
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models
August 28, 2024
Авторы: Wei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
cs.AI
Аннотация
Этот документ представляет Dolphin, новую архитектуру декодер-декодер для энергоэффективной обработки длинных контекстов в языковых моделях. Наш подход решает значительные проблемы потребления энергии и задержки, присущие моделям на устройствах. Dolphin использует компактный декодер с 0.5 миллиардами параметров для конденсации обширной контекстуальной информации в память встраивания, существенно сокращая длину ввода для основной модели декодера с 7 миллиардами параметров. Вдохновленные моделями видео-языка, мы переиспользуем проектор встраивания изображения для кодирования длинных текстовых контекстов, эффективно обрабатывая расширенный контекст как отдельную модальность. Этот инновационный метод позволяет обрабатывать существенно более длинные контексты без типичных вычислительных накладных расходов, связанных с расширенными последовательностями ввода. Эмпирические оценки демонстрируют улучшение энергоэффективности в 10 раз и сокращение задержки в 5 раз по сравнению с традиционными методами обработки контекста полной длины без потери качества ответа. Наша работа способствует разработке более устойчивых и масштабируемых языковых моделей для приложений на устройствах, решая критическую потребность в энергоэффективных и отзывчивых технологиях искусственного интеллекта в ресурсоограниченных средах, сохраняя точность понимания длинных контекстов. Эти исследования имеют значение для более широкого поля обработки естественного языка, особенно в области эффективного проектирования моделей для ресурсоограниченных сред. Позволяя более сложные возможности искусственного интеллекта на периферийных устройствах, Dolphin открывает путь для продвинутой обработки языка в широком спектре приложений, где вычислительные ресурсы являются дефицитными. Модель Dolphin доступна публично по адресу https://huggingface.co/NexaAIDev/Dolphin.
English
This paper presents Dolphin, a novel decoder-decoder architecture for
energy-efficient processing of long contexts in language models. Our approach
addresses the significant energy consumption and latency challenges inherent in
on-device models. Dolphin employs a compact 0.5B parameter decoder to distill
extensive contextual information into a memory embedding, substantially
reducing the input length for the primary 7B parameter decoder model. Inspired
by vision-language models, we repurpose the image embedding projector to encode
long textual contexts, effectively treating extended context as a distinct
modality. This innovative method enables processing of substantially longer
contexts without the typical computational overhead associated with extended
input sequences. Empirical evaluations demonstrate a 10-fold improvement in
energy efficiency and a 5-fold reduction in latency compared to conventional
full-length context processing methods without losing quality of the response.
Our work contributes to the development of more sustainable and scalable
language models for on-device applications, addressing the critical need for
energy-efficient and responsive AI technologies in resource-constrained
environments while maintaining the accuracy to understand long contexts. This
research has implications for the broader field of natural language processing,
particularly in the domain of efficient model design for resource-limited
settings. By enabling more sophisticated AI capabilities on edge devices,
Dolphin paves the way for advanced language processing in a wide range of
applications where computational resources are at a premium. The Dolphin model
is publicly available at https://huggingface.co/NexaAIDev/Dolphin.Summary
AI-Generated Summary