Modellen leren om hoogrisicodata te begrijpen (maar niet te genereren)

Samenvatting

Taalmodelontwikkelaars filteren doorgaans hoogrisico-inhoud -- zoals giftige of auteursrechtelijk beschermde tekst -- uit hun voor-trainingsdata om te voorkomen dat modellen vergelijkbare uitvoer genereren. Het volledig verwijderen van dergelijke data beperkt echter het vermogen van modellen om schadelijke of gevoelige inhoud te herkennen en er gepast op te reageren. In dit artikel introduceren we Selective Loss to Understand but Not Generate (SLUNG), een voor-trainingsparadigma waarbij modellen leren om hoogrisicodata te begrijpen zonder deze te leren genereren. In plaats van het next-token prediction loss uniform toe te passen, vermijdt SLUNG selectief het stimuleren van de generatie van hoogrisico-tokens, terwijl ervoor wordt gezorgd dat deze binnen het contextvenster van het model blijven. Terwijl het model leert om laagrisico-tokens te voorspellen die op hoogrisico-tokens volgen, wordt het gedwongen om de hoogrisico-inhoud te begrijpen. Onze experimenten tonen aan dat SLUNG consistent het begrip van modellen van hoogrisicodata verbetert (bijvoorbeeld het vermogen om giftige inhoud te herkennen) zonder de generatie ervan te verhogen (bijvoorbeeld de toxiciteit van modelreacties). Over het geheel genomen stelt ons SLUNG-paradigma modellen in staat om te profiteren van hoogrisicotekst die anders zou worden gefilterd.

English

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

Modellen leren om hoogrisicodata te begrijpen (maar niet te genereren)

Teaching Models to Understand (but not Generate) High-risk Data

Samenvatting

Support