ロケット：言語モデルのための堅牢な特徴ロック技術

要旨

チャットボットプロバイダー（例：OpenAI）は、階層型のサブスクリプションスキームに依存して収益を生み出しており、基本モデルを無料ユーザーに提供し、高度なモデルを有料サブスクライバーに提供しています。しかし、プレミアム機能（例：数学、コーディング）に対するより細かいペイ・トゥ・アンロックスキームは、プロバイダーにとってより経済的に持続可能であると考えられています。このようなスキームには、機能ロック技術（FLoTE）が必要であり、それは（i）ロックされた機能を拒否する効果的であること、（ii）アンロックされた機能の有用性を維持すること、（iii）回避や不正な認証情報の共有に対して堅牢であること、（iv）複数の機能とユーザーに拡張可能であることが求められます。しかし、既存のFLoTEs（例：パスワードロックされたモデル）は堅牢性や拡張性に欠けています。本研究では、ペイ・トゥ・アンロックスキームを可能にする初の堅牢で拡張可能なFLoTEであるLocketを提案します。Locketは、未承認の機能を拒否するためにLLMにアダプターを接続する新しいマージングアプローチを使用します。包括的な評価により、Locketが効果的（ロックされた機能に対する100%の拒否率）、有用性維持（アンロックされた機能での7%以下の有用性低下）、堅牢性（5%以下の攻撃成功率）、および複数の機能とクライアントへの拡張性を有することを示しました。

English

Chatbot providers (e.g., OpenAI) rely on tiered subscription schemes to generate revenue, offering basic models for free users, and advanced models for paying subscribers. However, a finer-grained pay-to-unlock scheme for premium features (e.g., math, coding) is thought to be more economically viable for the providers. Such a scheme requires a feature-locking technique (FLoTE) which is (i) effective in refusing locked features, (ii) utility-preserving for unlocked features, (iii) robust against evasion or unauthorized credential sharing, and (iv) scalable to multiple features and users. However, existing FLoTEs (e.g., password-locked models) are not robust or scalable. We present Locket, the first robust and scalable FLoTE to enable pay-to-unlock schemes. Locket uses a novel merging approach to attach adapters to an LLM for refusing unauthorized features. Our comprehensive evaluation shows that Locket is effective (100% refusal on locked features), utility-preserving (leq 7% utility degradation in unlocked features), robust (leq 5% attack success rate), and scales to multiple features and clients.

ロケット：言語モデルのための堅牢な特徴ロック技術

Locket: Robust Feature-Locking Technique for Language Models

要旨

Support