Modellen leren om hoogrisicodata te begrijpen (maar niet te genereren)
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Auteurs: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Samenvatting
Taalmodelontwikkelaars filteren doorgaans hoogrisico-inhoud -- zoals giftige of auteursrechtelijk beschermde tekst -- uit hun voor-trainingsdata om te voorkomen dat modellen vergelijkbare uitvoer genereren. Het volledig verwijderen van dergelijke data beperkt echter het vermogen van modellen om schadelijke of gevoelige inhoud te herkennen en er gepast op te reageren. In dit artikel introduceren we Selective Loss to Understand but Not Generate (SLUNG), een voor-trainingsparadigma waarbij modellen leren om hoogrisicodata te begrijpen zonder deze te leren genereren. In plaats van het next-token prediction loss uniform toe te passen, vermijdt SLUNG selectief het stimuleren van de generatie van hoogrisico-tokens, terwijl ervoor wordt gezorgd dat deze binnen het contextvenster van het model blijven. Terwijl het model leert om laagrisico-tokens te voorspellen die op hoogrisico-tokens volgen, wordt het gedwongen om de hoogrisico-inhoud te begrijpen. Onze experimenten tonen aan dat SLUNG consistent het begrip van modellen van hoogrisicodata verbetert (bijvoorbeeld het vermogen om giftige inhoud te herkennen) zonder de generatie ervan te verhogen (bijvoorbeeld de toxiciteit van modelreacties). Over het geheel genomen stelt ons SLUNG-paradigma modellen in staat om te profiteren van hoogrisicotekst die anders zou worden gefilterd.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.