Ensinando Modelos a Compreender (mas não Gerar) Dados de Alto Risco
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Autores: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Resumo
Desenvolvedores de modelos de linguagem normalmente filtram conteúdo de alto risco — como texto tóxico ou protegido por direitos autorais — de seus dados de pré-treinamento para evitar que os modelos gerem saídas semelhantes. No entanto, remover esses dados por completo limita a capacidade dos modelos de reconhecer e responder adequadamente a conteúdo prejudicial ou sensível. Neste artigo, introduzimos o Selective Loss to Understand but Not Generate (SLUNG), um paradigma de pré-treinamento por meio do qual os modelos aprendem a entender dados de alto risco sem aprender a gerá-los. Em vez de aplicar uniformemente a perda de previsão do próximo token, o SLUNG evita seletivamente incentivar a geração de tokens de alto risco, garantindo que eles permaneçam na janela de contexto do modelo. À medida que o modelo aprende a prever tokens de baixo risco que seguem os de alto risco, ele é forçado a entender o conteúdo de alto risco. Por meio de nossos experimentos, mostramos que o SLUNG melhora consistentemente a compreensão dos modelos sobre dados de alto risco (por exemplo, a capacidade de reconhecer conteúdo tóxico) sem aumentar sua geração (por exemplo, a toxicidade das respostas do modelo). No geral, nosso paradigma SLUNG permite que os modelos se beneficiem de textos de alto risco que, de outra forma, seriam filtrados.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.