Naar open-weightmodellen zonder risico's: het scheiden van publieke en private capaciteiten in LLM's

Samenvatting

Open-gewichtsmodellen (Large Language Models, LLMs) maken wetenschappelijke vooruitgang en brede inzet mogelijk. Ze bemoeilijken echter de controle over de toegang tot gevoelige functionaliteiten. Huidige praktijken onderdrukken gevaarlijke mogelijkheden vóór vrijgave of reguleren de toegang via gesloten diensten die gebruikmaken van gespecialiseerde modelvarianten, input/output-monitoren en API-rechten. De eerste aanpak is vatbaar voor jailbreaks en offert functionaliteit op voor alle gebruikers om de risico's van een enkeling te beperken; de tweede is fundamenteel onverenigbaar met vrijgave van open gewichten. In dit artikel stellen we Gelaagde Taalmodellen (Tiered Language Models, TLMs) voor, waarbij één enkele set vrijgegeven gewichten meerdere functionaliteitsniveaus ondersteunt. In de standaard openbare configuratie gedraagt een TLM zich als een conventioneel LLM. Een compacte geheime sleutel specificeert een permutatie over een kleine subset van parameters, wat een alternatieve berekeningsgrafiek over dezelfde gewichten induceert die extra mogelijkheden blootlegt. We ontwikkelen een trainingsprotocol dat beide configuraties vanaf nul gezamenlijk vooraf traint, en vervolgens de gesleutelde configuratie verfijnt op private data met regularisatie om het gedrag van het openbare model te behouden. We trainen TLMs met 180M en 650M parameters en tonen aan dat de gesleutelde configuratie een nieuwe taal kan verwerven, instructievolgende vaardigheden kan ontwikkelen en private feitenkennis kan memoriseren, terwijl de openbare configuratie geen van deze capaciteiten vertoont. Bovendien laten we zien dat onze benadering op natuurlijke wijze uitbreidbaar is naar meerdere hiërarchische niveaus. Omdat autorisatie werkt op de gewichtsstructuur van het model in plaats van in de invoerruimte, is het mechanisme bestand tegen extractie via fijnafstemming en gedeeltelijke sleutelcompromittering. In algemene zin zetten TLMs een stap richting verzoening van open-gewichtvrijgave met selectieve functionaliteitscontrole.

English

Open-weight Large Language Models (LLMs) enable scientific progress and broad deployment. However, they make it difficult to control access to sensitive capabilities. Current practice either suppresses dangerous capabilities before release or mediates access through closed services that use specialized model variants, input/output monitors, and API permissions. The former is susceptible to jailbreaks while sacrificing capability for all users to mitigate the risks posed by a few, and the latter is fundamentally incompatible with open-weight release. In this paper, we propose Tiered Language Models (TLMs), where a single set of released weights supports multiple capability levels. In its default public configuration, a TLM behaves as a conventional LLM. A compact secret key specifies a permutation over a small parameter subset, inducing an alternative computation graph over the same weights that exposes additional capabilities. We develop a training protocol that jointly pretrains both configurations from scratch, then fine-tunes the keyed configuration on private data with regularization to preserve the public model's behavior. We pretrain 180M- and 650M-parameter TLMs and demonstrate that the keyed configuration can acquire a new language, gain instruction-following ability, and memorize private factual knowledge, whereas the public configuration exhibits none of these capabilities. Moreover, we show that our approach extends naturally to multiple hierarchical tiers. Because authorization operates on the model's weight structure rather than in the input space, the mechanism resists fine-tuning-based extraction and partial key compromise. In general, TLMs take a step toward reconciling open-weight release with selective capability control.