Modelos de Enseñanza para Comprender (pero no Generar) Datos de Alto Riesgo
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Autores: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Resumen
Los desarrolladores de modelos de lenguaje suelen filtrar contenido de alto riesgo —como texto tóxico o protegido por derechos de autor— de sus datos de preentrenamiento para evitar que los modelos generen salidas similares. Sin embargo, eliminar por completo dichos datos limita la capacidad de los modelos para reconocer y responder adecuadamente a contenido dañino o sensible. En este artículo, presentamos Selective Loss to Understand but Not Generate (SLUNG), un paradigma de preentrenamiento mediante el cual los modelos aprenden a comprender datos de alto riesgo sin aprender a generarlos. En lugar de aplicar uniformemente la pérdida de predicción del siguiente token, SLUNG evita selectivamente incentivar la generación de tokens de alto riesgo, asegurando que permanezcan dentro de la ventana de contexto del modelo. A medida que el modelo aprende a predecir tokens de bajo riesgo que siguen a los de alto riesgo, se ve obligado a comprender el contenido de alto riesgo. A través de nuestros experimentos, demostramos que SLUNG mejora consistentemente la comprensión de los modelos sobre datos de alto riesgo (por ejemplo, la capacidad de reconocer contenido tóxico) sin aumentar su generación (por ejemplo, la toxicidad de las respuestas del modelo). En general, nuestro paradigma SLUNG permite que los modelos se beneficien de texto de alto riesgo que de otro modo sería filtrado.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.Summary
AI-Generated Summary