Персонализированная безопасность в языковых моделях: эталонный тест и подход на основе планирующего агента
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Авторы: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Аннотация
Крупные языковые модели (LLM) обычно генерируют идентичные или схожие ответы для всех пользователей при одинаковом запросе, что создает серьезные риски для безопасности в критически важных приложениях, где уязвимости пользователей значительно различаются. Существующие оценки безопасности в основном опираются на контекстно-независимые метрики, такие как фактическая точность, предвзятость или токсичность, упуская из виду тот факт, что один и тот же ответ может нести различные риски в зависимости от фона или состояния пользователя. Мы вводим концепцию персонализированной безопасности, чтобы заполнить этот пробел, и представляем PENGUIN — эталонный набор, включающий 14 000 сценариев в семи чувствительных областях с вариантами, как с богатым контекстом, так и без него. Оценивая шесть ведущих LLM, мы показываем, что персонализированная информация о пользователе значительно улучшает показатели безопасности на 43,2%, подтверждая эффективность персонализации в обеспечении безопасности. Однако не все атрибуты контекста в равной степени способствуют улучшению безопасности. Для решения этой проблемы мы разрабатываем RAISE — двухэтапную агентскую структуру, не требующую обучения, которая стратегически собирает информацию о фоне пользователя. RAISE улучшает показатели безопасности до 31,6% по сравнению с шестью базовыми LLM, сохраняя при этом низкую стоимость взаимодействия — всего 2,7 запроса к пользователю в среднем. Наши результаты подчеркивают важность избирательного сбора информации в критически важных для безопасности областях и предлагают практическое решение для персонализации ответов LLM без переобучения модели. Эта работа закладывает основу для исследований в области безопасности, которые адаптируются к индивидуальным контекстам пользователей, а не предполагают универсальный стандарт вреда.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.Summary
AI-Generated Summary