ChatPaper.aiChatPaper

Lehren von Modellen, Hochrisikodaten zu verstehen (aber nicht zu generieren)

Teaching Models to Understand (but not Generate) High-risk Data

May 5, 2025
papers.authors: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI

papers.abstract

Entwickler von Sprachmodellen filtern typischerweise hochriskante Inhalte – wie toxische oder urheberrechtlich geschützte Texte – aus ihren Vortrainingsdaten heraus, um zu verhindern, dass Modelle ähnliche Ausgaben generieren. Die vollständige Entfernung solcher Daten schränkt jedoch die Fähigkeit der Modelle ein, schädliche oder sensible Inhalte zu erkennen und angemessen darauf zu reagieren. In diesem Artikel stellen wir Selective Loss to Understand but Not Generate (SLUNG) vor, ein Vortrainingsparadigma, bei dem Modelle lernen, hochriskante Daten zu verstehen, ohne sie zu generieren. Anstatt den Next-Token-Prediction-Verlust einheitlich anzuwenden, vermeidet SLUNG selektiv die Anreize zur Generierung hochriskante Tokens, stellt jedoch sicher, dass sie im Kontextfenster des Modells verbleiben. Da das Modell lernt, risikoarme Tokens vorherzusagen, die auf hochriskante folgen, wird es gezwungen, die hochriskanten Inhalte zu verstehen. Durch unsere Experimente zeigen wir, dass SLUNG das Verständnis von hochriskanten Daten (z. B. die Fähigkeit, toxische Inhalte zu erkennen) durch Modelle konsequent verbessert, ohne deren Generierung (z. B. die Toxizität der Modellantworten) zu erhöhen. Insgesamt ermöglicht unser SLUNG-Paradigma Modellen, von hochriskanten Texten zu profitieren, die ansonsten herausgefiltert würden.
English
Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
PDF51May 7, 2025