ChatPaper.aiChatPaper

Entropie-geführte Aufmerksamkeit für private LLMs

Entropy-Guided Attention for Private LLMs

January 7, 2025
Autoren: Nandan Kumar Jha, Brandon Reagen
cs.AI

Zusammenfassung

Die Verbreitung proprietärer Sprachmodelle hat kritische Datenschutzbedenken aufgeworfen, was Fortschritte im Bereich des privaten Inferenz (PI) erforderlich macht, bei dem Berechnungen direkt auf verschlüsselten Daten durchgeführt werden, ohne die sensiblen Informationen der Benutzer offenzulegen. Obwohl PI eine vielversprechende Lösung bietet, wird seine praktische Umsetzung durch erhebliche Kommunikations- und Latenzüberlastungen behindert, die hauptsächlich auf nichtlineare Operationen zurückzuführen sind. Um dies zu bewältigen, führen wir einen informationstheoretischen Rahmen ein, um die Rolle der Nichtlinearitäten in ausschließlich dekodierenden Sprachmodellen zu charakterisieren und so eine fundierte Grundlage für die Optimierung von Transformer-Architekturen zu schaffen, die auf die Anforderungen von PI zugeschnitten sind. Durch die Nutzung von Shannons Entropie als quantitative Maßeinheit enthüllen wir die zuvor unerforschte doppelte Bedeutung von Nichtlinearitäten: Sie sind nicht nur entscheidend für die Gewährleistung der Trainingsstabilität, sondern auch für die Aufrechterhaltung der Vielfalt der Aufmerksamkeitsköpfe. Insbesondere stellen wir fest, dass ihr Entfernen zwei kritische Fehlermodi auslöst: {\em Entropie-Kollaps} in tieferen Schichten, der das Training destabilisiert, und {\em Entropie-Überlastung} in früheren Schichten, die zu einer Unterbeanspruchung der Repräsentationskapazität der Multi-Head Attention (MHA) führt. Wir schlagen einen entropiegeführten Aufmerksamkeitsmechanismus in Verbindung mit einer neuartigen Entropie-Regularisierungstechnik vor, um die Entropie-Überlastung zu mildern. Darüber hinaus untersuchen wir PI-freundliche Alternativen zur Schichtnormalisierung, um den Entropie-Kollaps zu verhindern und das Training von LLMs mit reduzierten Nichtlinearitäten zu stabilisieren. Unsere Studie schlägt eine Brücke zwischen Informationstheorie und architektonischem Design und etabliert die Entropiedynamik als fundierte Richtlinie für die Entwicklung effizienter PI-Architekturen. Der Code und die Implementierung sind verfügbar unter https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
English
The pervasiveness of proprietary language models has raised critical privacy concerns, necessitating advancements in private inference (PI), where computations are performed directly on encrypted data without revealing users' sensitive information. While PI offers a promising solution, its practical deployment is hindered by substantial communication and latency overheads, primarily stemming from nonlinear operations. To address this, we introduce an information-theoretic framework to characterize the role of nonlinearities in decoder-only language models, laying a principled foundation for optimizing transformer-architectures tailored to the demands of PI. By leveraging Shannon's entropy as a quantitative measure, we uncover the previously unexplored dual significance of nonlinearities: beyond ensuring training stability, they are crucial for maintaining attention head diversity. Specifically, we find that their removal triggers two critical failure modes: {\em entropy collapse} in deeper layers that destabilizes training, and {\em entropic overload} in earlier layers that leads to under-utilization of Multi-Head Attention's (MHA) representational capacity. We propose an entropy-guided attention mechanism paired with a novel entropy regularization technique to mitigate entropic overload. Additionally, we explore PI-friendly alternatives to layer normalization for preventing entropy collapse and stabilizing the training of LLMs with reduced-nonlinearities. Our study bridges the gap between information theory and architectural design, establishing entropy dynamics as a principled guide for developing efficient PI architectures. The code and implementation are available at https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.

Summary

AI-Generated Summary

PDF148January 10, 2025