Modelos de Enseñanza para Comprender (pero no Generar) Datos de Alto Riesgo

Resumen

Los desarrolladores de modelos de lenguaje suelen filtrar contenido de alto riesgo —como texto tóxico o protegido por derechos de autor— de sus datos de preentrenamiento para evitar que los modelos generen salidas similares. Sin embargo, eliminar por completo dichos datos limita la capacidad de los modelos para reconocer y responder adecuadamente a contenido dañino o sensible. En este artículo, presentamos Selective Loss to Understand but Not Generate (SLUNG), un paradigma de preentrenamiento mediante el cual los modelos aprenden a comprender datos de alto riesgo sin aprender a generarlos. En lugar de aplicar uniformemente la pérdida de predicción del siguiente token, SLUNG evita selectivamente incentivar la generación de tokens de alto riesgo, asegurando que permanezcan dentro de la ventana de contexto del modelo. A medida que el modelo aprende a predecir tokens de bajo riesgo que siguen a los de alto riesgo, se ve obligado a comprender el contenido de alto riesgo. A través de nuestros experimentos, demostramos que SLUNG mejora consistentemente la comprensión de los modelos sobre datos de alto riesgo (por ejemplo, la capacidad de reconocer contenido tóxico) sin aumentar su generación (por ejemplo, la toxicidad de las respuestas del modelo). En general, nuestro paradigma SLUNG permite que los modelos se beneficien de texto de alto riesgo que de otro modo sería filtrado.

English

Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.

Modelos de Enseñanza para Comprender (pero no Generar) Datos de Alto Riesgo

Teaching Models to Understand (but not Generate) High-risk Data

Resumen

Support