Locket : Technique robuste de verrouillage des caractéristiques pour les modèles de langage

papers.abstract

Les fournisseurs de chatbots (par exemple, OpenAI) s'appuient sur des modèles d'abonnement à plusieurs niveaux pour générer des revenus, proposant des modèles de base pour les utilisateurs gratuits et des modèles avancés pour les abonnés payants. Cependant, un système de déverrouillage payant plus granulaire pour des fonctionnalités premium (par exemple, mathématiques, codage) est considéré comme plus économiquement viable pour les fournisseurs. Un tel système nécessite une technique de verrouillage des fonctionnalités (FLoTE) qui soit (i) efficace pour refuser l'accès aux fonctionnalités verrouillées, (ii) préservant l'utilité des fonctionnalités déverrouillées, (iii) robuste contre les contournements ou le partage non autorisé d'identifiants, et (iv) scalable pour plusieurs fonctionnalités et utilisateurs. Cependant, les FLoTEs existantes (par exemple, les modèles verrouillés par mot de passe) ne sont ni robustes ni scalables. Nous présentons Locket, la première FLoTE robuste et scalable permettant de mettre en œuvre des systèmes de déverrouillage payant. Locket utilise une approche de fusion innovante pour attacher des adaptateurs à un modèle de langage (LLM) afin de refuser l'accès aux fonctionnalités non autorisées. Notre évaluation approfondie montre que Locket est efficace (100 % de refus pour les fonctionnalités verrouillées), préservant l'utilité (une dégradation de l'utilité ≤ 7 % pour les fonctionnalités déverrouillées), robuste (un taux de réussite des attaques ≤ 5 %), et scalable pour plusieurs fonctionnalités et clients.

English

Chatbot providers (e.g., OpenAI) rely on tiered subscription schemes to generate revenue, offering basic models for free users, and advanced models for paying subscribers. However, a finer-grained pay-to-unlock scheme for premium features (e.g., math, coding) is thought to be more economically viable for the providers. Such a scheme requires a feature-locking technique (FLoTE) which is (i) effective in refusing locked features, (ii) utility-preserving for unlocked features, (iii) robust against evasion or unauthorized credential sharing, and (iv) scalable to multiple features and users. However, existing FLoTEs (e.g., password-locked models) are not robust or scalable. We present Locket, the first robust and scalable FLoTE to enable pay-to-unlock schemes. Locket uses a novel merging approach to attach adapters to an LLM for refusing unauthorized features. Our comprehensive evaluation shows that Locket is effective (100% refusal on locked features), utility-preserving (leq 7% utility degradation in unlocked features), robust (leq 5% attack success rate), and scales to multiple features and clients.

Locket : Technique robuste de verrouillage des caractéristiques pour les modèles de langage

Locket: Robust Feature-Locking Technique for Language Models

papers.abstract

Support