Hin zu Open-Weight-Modellen ohne Risiken: Trennung von öffentlichen und privaten Fähigkeiten in LLMs

Zusammenfassung

Open-Weight Large Language Models (LLMs) ermöglichen wissenschaftlichen Fortschritt und eine breite Anwendung. Allerdings erschweren sie die Kontrolle des Zugriffs auf sensible Fähigkeiten. Die derzeitige Praxis unterdrückt gefährliche Fähigkeiten entweder vor der Veröffentlichung oder vermittelt den Zugang über geschlossene Dienste, die spezialisierte Modellvarianten, Ein-/Ausgabeüberwachung und API-Berechtigungen nutzen. Ersteres ist anfällig für Jailbreaks und opfert dabei die Leistungsfähigkeit für alle Nutzer, um die von wenigen ausgehenden Risiken zu mindern. Letzteres ist grundsätzlich nicht mit der Veröffentlichung offener Gewichte vereinbar. In diesem Papier schlagen wir Tiered Language Models (TLMs) vor, bei denen ein einzelner Satz veröffentlichter Gewichte mehrere Leistungsstufen unterstützt. In seiner standardmäßigen öffentlichen Konfiguration verhält sich ein TLM wie ein herkömmliches LLM. Ein kompakter geheimer Schlüssel spezifiziert eine Permutation über eine kleine Teilmenge von Parametern, wodurch ein alternativer Berechnungsgraph über dieselben Gewichte induziert wird, der zusätzliche Fähigkeiten freischaltet. Wir entwickeln ein Trainingsprotokoll, das beide Konfigurationen von Grund auf gemeinsam vortrainiert und dann die geschlüsselte Konfiguration auf privaten Daten mit Regularisierung feinabstimmt, um das Verhalten des öffentlichen Modells zu bewahren. Wir trainieren TLMs mit 180 Millionen bzw. 650 Millionen Parametern vor und zeigen, dass die geschlüsselte Konfiguration eine neue Sprache erlernen, Anweisungen befolgen und privates Faktenwissen speichern kann, während die öffentliche Konfiguration keine dieser Fähigkeiten aufweist. Darüber hinaus zeigen wir, dass sich unser Ansatz auf natürliche Weise auf mehrere hierarchische Ebenen erweitern lässt. Da die Autorisierung auf der Gewichtsstruktur des Modells und nicht im Eingaberaum erfolgt, widersteht der Mechanismus einer auf Feintuning basierenden Extraktion und einer teilweisen Kompromittierung des Schlüssels. Insgesamt stellen TLMs einen Schritt dar, um die Veröffentlichung offener Gewichte mit einer selektiven Fähigkeitskontrolle zu versöhnen.

English

Open-weight Large Language Models (LLMs) enable scientific progress and broad deployment. However, they make it difficult to control access to sensitive capabilities. Current practice either suppresses dangerous capabilities before release or mediates access through closed services that use specialized model variants, input/output monitors, and API permissions. The former is susceptible to jailbreaks while sacrificing capability for all users to mitigate the risks posed by a few, and the latter is fundamentally incompatible with open-weight release. In this paper, we propose Tiered Language Models (TLMs), where a single set of released weights supports multiple capability levels. In its default public configuration, a TLM behaves as a conventional LLM. A compact secret key specifies a permutation over a small parameter subset, inducing an alternative computation graph over the same weights that exposes additional capabilities. We develop a training protocol that jointly pretrains both configurations from scratch, then fine-tunes the keyed configuration on private data with regularization to preserve the public model's behavior. We pretrain 180M- and 650M-parameter TLMs and demonstrate that the keyed configuration can acquire a new language, gain instruction-following ability, and memorize private factual knowledge, whereas the public configuration exhibits none of these capabilities. Moreover, we show that our approach extends naturally to multiple hierarchical tiers. Because authorization operates on the model's weight structure rather than in the input space, the mechanism resists fine-tuning-based extraction and partial key compromise. In general, TLMs take a step toward reconciling open-weight release with selective capability control.