Insegnare ai Modelli a Comprendere (ma non Generare) Dati ad Alto Rischio
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Autori: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Abstract
Gli sviluppatori di modelli linguistici tipicamente filtrano i contenuti ad alto rischio – come testi tossici o protetti da copyright – dai loro dati di pre-addestramento per impedire ai modelli di generare output simili. Tuttavia, rimuovere completamente tali dati limita la capacità dei modelli di riconoscere e rispondere in modo appropriato a contenuti dannosi o sensibili. In questo articolo, introduciamo Selective Loss to Understand but Not Generate (SLUNG), un paradigma di pre-addestramento attraverso il quale i modelli imparano a comprendere i dati ad alto rischio senza imparare a generarli. Invece di applicare uniformemente la perdita di predizione del token successivo, SLUNG evita selettivamente di incentivare la generazione di token ad alto rischio, pur assicurandosi che rimangano all'interno della finestra contestuale del modello. Mentre il modello impara a prevedere i token a basso rischio che seguono quelli ad alto rischio, è costretto a comprendere il contenuto ad alto rischio. Attraverso i nostri esperimenti, dimostriamo che SLUNG migliora costantemente la comprensione dei dati ad alto rischio da parte dei modelli (ad esempio, la capacità di riconoscere contenuti tossici) senza aumentarne la generazione (ad esempio, la tossicità delle risposte del modello). Nel complesso, il nostro paradigma SLUNG consente ai modelli di trarre vantaggio da testi ad alto rischio che altrimenti verrebbero filtrati.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.