Энтропийно-управляемое внимание для частных LLMs

Entropy-Guided Attention for Private LLMs

January 7, 2025
Авторы: Nandan Kumar Jha, Brandon Reagen
cs.AI

Аннотация

Всеобщее распространение собственных языковых моделей вызвало серьезные проблемы конфиденциальности, требующие развития в области частного вывода (PI), где вычисления выполняются непосредственно над зашифрованными данными без раскрытия чувствительной информации пользователей. Хотя PI предлагает многообещающее решение, его практическое внедрение затруднено значительными накладными расходами на связь и задержками, в основном вызванными нелинейными операциями. Для решения этой проблемы мы представляем информационно-теоретическую основу для характеристики роли нелинейностей в моделях языка только декодера, заложив принципиальное основание для оптимизации архитектур трансформеров, адаптированных к требованиям PI. Путем использования энтропии Шеннона в качестве количественной меры мы раскрываем ранее не исследованный двойной смысл нелинейностей: помимо обеспечения стабильности обучения, они критически важны для поддержания разнообразия внимательных голов. В частности, мы обнаружили, что их удаление вызывает два критических режима сбоя: {\em коллапс энтропии} в более глубоких слоях, что нарушает стабильность обучения, и {\em энтропийное перегрузка} в более ранних слоях, что приводит к недоиспользованию представительной способности многоголового внимания (MHA). Мы предлагаем механизм внимания, направленный на энтропию, совместно с новой техникой регуляризации энтропии для смягчения энтропийной перегрузки. Кроме того, мы исследуем PI-дружественные альтернативы нормализации слоя для предотвращения коллапса энтропии и стабилизации обучения LLM с уменьшенными нелинейностями. Наше исследование сокращает разрыв между теорией информации и архитектурным дизайном, устанавливая динамику энтропии как принципиальное руководство для разработки эффективных архитектур PI. Код и реализация доступны по ссылке https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
English
The pervasiveness of proprietary language models has raised critical privacy concerns, necessitating advancements in private inference (PI), where computations are performed directly on encrypted data without revealing users' sensitive information. While PI offers a promising solution, its practical deployment is hindered by substantial communication and latency overheads, primarily stemming from nonlinear operations. To address this, we introduce an information-theoretic framework to characterize the role of nonlinearities in decoder-only language models, laying a principled foundation for optimizing transformer-architectures tailored to the demands of PI. By leveraging Shannon's entropy as a quantitative measure, we uncover the previously unexplored dual significance of nonlinearities: beyond ensuring training stability, they are crucial for maintaining attention head diversity. Specifically, we find that their removal triggers two critical failure modes: {\em entropy collapse} in deeper layers that destabilizes training, and {\em entropic overload} in earlier layers that leads to under-utilization of Multi-Head Attention's (MHA) representational capacity. We propose an entropy-guided attention mechanism paired with a novel entropy regularization technique to mitigate entropic overload. Additionally, we explore PI-friendly alternatives to layer normalization for preventing entropy collapse and stabilizing the training of LLMs with reduced-nonlinearities. Our study bridges the gap between information theory and architectural design, establishing entropy dynamics as a principled guide for developing efficient PI architectures. The code and implementation are available at https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
PDF148January 10, 2025