Hacia modelos de peso abierto sin riesgos: Separando capacidades públicas y privadas en LLMs

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con pesos abiertos permiten el progreso científico y una implementación generalizada. Sin embargo, dificultan el control del acceso a capacidades sensibles. La práctica actual suprime las capacidades peligrosas antes del lanzamiento o media el acceso a través de servicios cerrados que utilizan variantes de modelos especializadas, monitores de entrada/salida y permisos de API. El primer enfoque es susceptible a ataques de jailbreak, sacrificando la capacidad para todos los usuarios con el fin de mitigar los riesgos planteados por unos pocos; el segundo es fundamentalmente incompatible con la publicación de pesos abiertos. En este artículo, proponemos los Modelos de Lenguaje por Niveles (TLMs, por sus siglas en inglés), donde un único conjunto de pesos publicados admite múltiples niveles de capacidad. En su configuración pública predeterminada, un TLM se comporta como un LLM convencional. Una clave secreta compacta especifica una permutación sobre un subconjunto pequeño de parámetros, induciendo un grafo de cómputo alternativo sobre los mismos pesos que expone capacidades adicionales. Desarrollamos un protocolo de entrenamiento que preentrena conjuntamente ambas configuraciones desde cero y luego ajusta finamente la configuración con clave en datos privados con regularización para preservar el comportamiento del modelo público. Preentrenamos TLMs de 180M y 650M de parámetros y demostramos que la configuración con clave puede adquirir un nuevo idioma, obtener capacidad de seguir instrucciones y memorizar conocimiento factual privado, mientras que la configuración pública no presenta ninguna de estas capacidades. Además, mostramos que nuestro enfoque se extiende de forma natural a múltiples niveles jerárquicos. Dado que la autorización opera sobre la estructura de pesos del modelo en lugar del espacio de entrada, el mecanismo resiste la extracción basada en ajuste fino y el compromiso parcial de la clave. En general, los TLMs representan un paso hacia la reconciliación de la publicación de pesos abiertos con el control selectivo de capacidades.

English

Open-weight Large Language Models (LLMs) enable scientific progress and broad deployment. However, they make it difficult to control access to sensitive capabilities. Current practice either suppresses dangerous capabilities before release or mediates access through closed services that use specialized model variants, input/output monitors, and API permissions. The former is susceptible to jailbreaks while sacrificing capability for all users to mitigate the risks posed by a few, and the latter is fundamentally incompatible with open-weight release. In this paper, we propose Tiered Language Models (TLMs), where a single set of released weights supports multiple capability levels. In its default public configuration, a TLM behaves as a conventional LLM. A compact secret key specifies a permutation over a small parameter subset, inducing an alternative computation graph over the same weights that exposes additional capabilities. We develop a training protocol that jointly pretrains both configurations from scratch, then fine-tunes the keyed configuration on private data with regularization to preserve the public model's behavior. We pretrain 180M- and 650M-parameter TLMs and demonstrate that the keyed configuration can acquire a new language, gain instruction-following ability, and memorize private factual knowledge, whereas the public configuration exhibits none of these capabilities. Moreover, we show that our approach extends naturally to multiple hierarchical tiers. Because authorization operates on the model's weight structure rather than in the input space, the mechanism resists fine-tuning-based extraction and partial key compromise. In general, TLMs take a step toward reconciling open-weight release with selective capability control.