ChatPaper.aiChatPaper

로켓: 언어 모델을 위한 강건한 특징 고정 기술

Locket: Robust Feature-Locking Technique for Language Models

October 14, 2025
저자: Lipeng He, Vasisht Duddu, N. Asokan
cs.AI

초록

챗봇 제공업체(예: OpenAI)는 수익을 창출하기 위해 계층형 구독 방식을 활용하며, 무료 사용자에게는 기본 모델을 제공하고 유료 구독자에게는 고급 모델을 제공한다. 그러나 프리미엄 기능(예: 수학, 코딩)에 대해 더 세분화된 유료 해제 방식이 제공업체에게 더 경제적으로 유리할 것으로 여겨진다. 이러한 방식은 기능 잠금 기술(FLoTE)을 필요로 하는데, 이 기술은 (i) 잠긴 기능을 거부하는 데 효과적이고, (ii) 해제된 기능에 대해 유틸리티를 보존하며, (iii) 회피 또는 무단 자격 증명 공유에 대해 강력하며, (iv) 다중 기능과 사용자에게 확장 가능해야 한다. 그러나 기존의 FLoTEs(예: 비밀번호 잠금 모델)는 강력하거나 확장 가능하지 않다. 본 논문에서는 유료 해제 방식을 가능하게 하는 최초의 강력하고 확장 가능한 FLoTE인 Locket을 제시한다. Locket은 LLM에 어댑터를 부착하여 무단 기능을 거부하는 새로운 병합 방식을 사용한다. 포괄적인 평가 결과, Locket은 효과적(잠긴 기능에 대해 100% 거부), 유틸리티 보존(해제된 기능에서 ≤7% 유틸리티 저하), 강력(≤5% 공격 성공률), 그리고 다중 기능과 클라이언트에 확장 가능함을 보여준다.
English
Chatbot providers (e.g., OpenAI) rely on tiered subscription schemes to generate revenue, offering basic models for free users, and advanced models for paying subscribers. However, a finer-grained pay-to-unlock scheme for premium features (e.g., math, coding) is thought to be more economically viable for the providers. Such a scheme requires a feature-locking technique (FLoTE) which is (i) effective in refusing locked features, (ii) utility-preserving for unlocked features, (iii) robust against evasion or unauthorized credential sharing, and (iv) scalable to multiple features and users. However, existing FLoTEs (e.g., password-locked models) are not robust or scalable. We present Locket, the first robust and scalable FLoTE to enable pay-to-unlock schemes. Locket uses a novel merging approach to attach adapters to an LLM for refusing unauthorized features. Our comprehensive evaluation shows that Locket is effective (100% refusal on locked features), utility-preserving (leq 7% utility degradation in unlocked features), robust (leq 5% attack success rate), and scales to multiple features and clients.
PDF12October 15, 2025