Apprendre aux modèles à comprendre (mais pas à générer) des données à haut risque
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Auteurs: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Résumé
Les développeurs de modèles de langage filtrent généralement les contenus à haut risque — tels que les textes toxiques ou protégés par des droits d'auteur — de leurs données de pré-entraînement pour empêcher les modèles de générer des sorties similaires. Cependant, supprimer complètement ces données limite la capacité des modèles à reconnaître et à répondre de manière appropriée aux contenus nuisibles ou sensibles. Dans cet article, nous présentons Selective Loss to Understand but Not Generate (SLUNG), un paradigme de pré-entraînement grâce auquel les modèles apprennent à comprendre les données à haut risque sans apprendre à les générer. Au lieu d'appliquer uniformément la perte de prédiction du token suivant, SLUNG évite sélectivement d'inciter à la génération de tokens à haut risque tout en s'assurant qu'ils restent dans la fenêtre contextuelle du modèle. Comme le modèle apprend à prédire les tokens à faible risque qui suivent ceux à haut risque, il est contraint de comprendre le contenu à haut risque. À travers nos expériences, nous montrons que SLUNG améliore systématiquement la compréhension des données à haut risque par les modèles (par exemple, la capacité à reconnaître un contenu toxique) sans en augmenter la génération (par exemple, la toxicité des réponses du modèle). Globalement, notre paradigme SLUNG permet aux modèles de tirer parti des textes à haut risque qui seraient autrement filtrés.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.Summary
AI-Generated Summary