Vers des modèles à poids ouverts sans risques : séparation des capacités publiques et privées dans les LLM

Résumé

Les modèles de langage de grande taille (LLMs) à poids ouverts permettent le progrès scientifique et un large déploiement. Cependant, ils rendent difficile le contrôle de l'accès à des capacités sensibles. La pratique actuelle consiste soit à supprimer les capacités dangereuses avant la publication, soit à contrôler l'accès via des services fermés qui utilisent des variantes de modèles spécialisées, des moniteurs d'entrée/sortie et des permissions d'API. La première approche est vulnérable aux « jailbreaks » tout en sacrifiant les capacités pour tous les utilisateurs afin d'atténuer les risques posés par quelques-uns, et la seconde est fondamentalement incompatible avec une publication en poids ouverts. Dans cet article, nous proposons les Modèles de Langage Hiérarchisés (TLMs), où un seul ensemble de poids publiés prend en charge plusieurs niveaux de capacité. Dans sa configuration publique par défaut, un TLM se comporte comme un LLM conventionnel. Une clé secrète compacte spécifie une permutation sur un petit sous-ensemble de paramètres, induisant un graphe de calcul alternatif sur les mêmes poids qui expose des capacités supplémentaires. Nous développons un protocole d'entraînement qui pré-entraîne conjointement les deux configurations à partir de zéro, puis ajuste finement la configuration à clé sur des données privées avec régularisation pour préserver le comportement du modèle public. Nous pré-entraînons des TLMs de 180 millions et 650 millions de paramètres et démontrons que la configuration à clé peut acquérir une nouvelle langue, gagner une capacité à suivre des instructions et mémoriser des connaissances factuelles privées, tandis que la configuration publique ne présente aucune de ces capacités. De plus, nous montrons que notre approche s'étend naturellement à plusieurs niveaux hiérarchiques. Parce que l'autorisation opère sur la structure des poids du modèle plutôt que dans l'espace d'entrée, le mécanisme résiste à l'extraction par ajustement fin et à la compromission partielle de la clé. En général, les TLMs constituent un pas vers la conciliation de la publication en poids ouverts avec un contrôle sélectif des capacités.

English

Open-weight Large Language Models (LLMs) enable scientific progress and broad deployment. However, they make it difficult to control access to sensitive capabilities. Current practice either suppresses dangerous capabilities before release or mediates access through closed services that use specialized model variants, input/output monitors, and API permissions. The former is susceptible to jailbreaks while sacrificing capability for all users to mitigate the risks posed by a few, and the latter is fundamentally incompatible with open-weight release. In this paper, we propose Tiered Language Models (TLMs), where a single set of released weights supports multiple capability levels. In its default public configuration, a TLM behaves as a conventional LLM. A compact secret key specifies a permutation over a small parameter subset, inducing an alternative computation graph over the same weights that exposes additional capabilities. We develop a training protocol that jointly pretrains both configurations from scratch, then fine-tunes the keyed configuration on private data with regularization to preserve the public model's behavior. We pretrain 180M- and 650M-parameter TLMs and demonstrate that the keyed configuration can acquire a new language, gain instruction-following ability, and memorize private factual knowledge, whereas the public configuration exhibits none of these capabilities. Moreover, we show that our approach extends naturally to multiple hierarchical tiers. Because authorization operates on the model's weight structure rather than in the input space, the mechanism resists fine-tuning-based extraction and partial key compromise. In general, TLMs take a step toward reconciling open-weight release with selective capability control.