Дельфин: Долгий контекст как новая модальность для энергоэффективных языковых моделей на устройстве.

Аннотация

Этот документ представляет Dolphin, новую архитектуру декодер-декодер для энергоэффективной обработки длинных контекстов в языковых моделях. Наш подход решает значительные проблемы потребления энергии и задержки, присущие моделям на устройствах. Dolphin использует компактный декодер с 0.5 миллиардами параметров для конденсации обширной контекстуальной информации в память встраивания, существенно сокращая длину ввода для основной модели декодера с 7 миллиардами параметров. Вдохновленные моделями видео-языка, мы переиспользуем проектор встраивания изображения для кодирования длинных текстовых контекстов, эффективно обрабатывая расширенный контекст как отдельную модальность. Этот инновационный метод позволяет обрабатывать существенно более длинные контексты без типичных вычислительных накладных расходов, связанных с расширенными последовательностями ввода. Эмпирические оценки демонстрируют улучшение энергоэффективности в 10 раз и сокращение задержки в 5 раз по сравнению с традиционными методами обработки контекста полной длины без потери качества ответа. Наша работа способствует разработке более устойчивых и масштабируемых языковых моделей для приложений на устройствах, решая критическую потребность в энергоэффективных и отзывчивых технологиях искусственного интеллекта в ресурсоограниченных средах, сохраняя точность понимания длинных контекстов. Эти исследования имеют значение для более широкого поля обработки естественного языка, особенно в области эффективного проектирования моделей для ресурсоограниченных сред. Позволяя более сложные возможности искусственного интеллекта на периферийных устройствах, Dolphin открывает путь для продвинутой обработки языка в широком спектре приложений, где вычислительные ресурсы являются дефицитными. Модель Dolphin доступна публично по адресу https://huggingface.co/NexaAIDev/Dolphin.

English

This paper presents Dolphin, a novel decoder-decoder architecture for energy-efficient processing of long contexts in language models. Our approach addresses the significant energy consumption and latency challenges inherent in on-device models. Dolphin employs a compact 0.5B parameter decoder to distill extensive contextual information into a memory embedding, substantially reducing the input length for the primary 7B parameter decoder model. Inspired by vision-language models, we repurpose the image embedding projector to encode long textual contexts, effectively treating extended context as a distinct modality. This innovative method enables processing of substantially longer contexts without the typical computational overhead associated with extended input sequences. Empirical evaluations demonstrate a 10-fold improvement in energy efficiency and a 5-fold reduction in latency compared to conventional full-length context processing methods without losing quality of the response. Our work contributes to the development of more sustainable and scalable language models for on-device applications, addressing the critical need for energy-efficient and responsive AI technologies in resource-constrained environments while maintaining the accuracy to understand long contexts. This research has implications for the broader field of natural language processing, particularly in the domain of efficient model design for resource-limited settings. By enabling more sophisticated AI capabilities on edge devices, Dolphin paves the way for advanced language processing in a wide range of applications where computational resources are at a premium. The Dolphin model is publicly available at https://huggingface.co/NexaAIDev/Dolphin.

Дельфин: Долгий контекст как новая модальность для энергоэффективных языковых моделей на устройстве.

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

Аннотация

Support