Обучение моделей пониманию (но не генерации) данных с высоким уровнем риска
Teaching Models to Understand (but not Generate) High-risk Data
May 5, 2025
Авторы: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
cs.AI
Аннотация
Разработчики языковых моделей обычно фильтруют высокорисковый контент — например, токсичные или защищенные авторским правом тексты — из своих данных предварительного обучения, чтобы предотвратить генерацию моделями подобных выходных данных. Однако полное удаление таких данных ограничивает способность моделей распознавать и адекватно реагировать на вредоносный или чувствительный контент. В данной статье мы представляем подход Selective Loss to Understand but Not Generate (SLUNG), парадигму предварительного обучения, с помощью которой модели учатся понимать высокорисковые данные, не обучаясь их генерировать. Вместо равномерного применения функции потерь для предсказания следующего токена SLUNG избирательно избегает стимулирования генерации высокорисковых токенов, при этом обеспечивая их присутствие в контекстном окне модели. Поскольку модель учится предсказывать низкорисковые токены, следующие за высокорисковыми, она вынуждена понимать высокорисковый контент. Наши эксперименты показывают, что SLUNG последовательно улучшает понимание моделями высокорисковых данных (например, способность распознавать токсичный контент) без увеличения их генерации (например, токсичности ответов модели). В целом, наша парадигма SLUNG позволяет моделям извлекать пользу из высокорисковых текстов, которые в противном случае были бы отфильтрованы.
English
Language model developers typically filter out high-risk content -- such as
toxic or copyrighted text -- from their pre-training data to prevent models
from generating similar outputs. However, removing such data altogether limits
models' ability to recognize and appropriately respond to harmful or sensitive
content. In this paper, we introduce Selective Loss to Understand but Not
Generate (SLUNG), a pre-training paradigm through which models learn to
understand high-risk data without learning to generate it. Instead of uniformly
applying the next-token prediction loss, SLUNG selectively avoids incentivizing
the generation of high-risk tokens while ensuring they remain within the
model's context window. As the model learns to predict low-risk tokens that
follow high-risk ones, it is forced to understand the high-risk content.
Through our experiments, we show that SLUNG consistently improves models'
understanding of high-risk data (e.g., ability to recognize toxic content)
without increasing its generation (e.g., toxicity of model responses). Overall,
our SLUNG paradigm enables models to benefit from high-risk text that would
otherwise be filtered out.Summary
AI-Generated Summary