За пределами "Нет": Количественная оценка чрезмерного отказа ИИ и границ эмоциональной привязанности
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
Авторы: David Noever, Grant Rosario
cs.AI
Аннотация
Мы представляем открытый эталонный тест и оценочную платформу для анализа способности крупных языковых моделей (LLM) справляться с эмоциональными границами. Используя набор данных из 1156 запросов на шести языках, мы оценили три ведущие LLM (GPT-4o, Claude-3.5 Sonnet и Mistral-large) на их способность поддерживать соответствующие эмоциональные границы с помощью анализа шаблонов ответов. Наша платформа количественно оценивает ответы по семи ключевым шаблонам: прямой отказ, извинение, объяснение, уклонение, признание, установление границ и эмоциональная осознанность. Результаты демонстрируют значительные различия в подходах к обработке границ, при этом Claude-3.5 достигает наивысшего общего балла (8,69/10) и генерирует более длинные и детализированные ответы (в среднем 86,51 слова). Мы выявили существенный разрыв в производительности между взаимодействиями на английском (средний балл 25,62) и других языках (< 0,22), при этом ответы на английском показывают значительно более высокий уровень отказов (43,20% против < 1% для других языков). Анализ шаблонов выявил специфические для моделей стратегии, такие как предпочтение Mistral к уклонению (4,2%) и стабильно низкие показатели эмпатии у всех моделей (< 0,06). Ограничения включают возможное упрощение за счет анализа шаблонов, отсутствие контекстуального понимания при анализе ответов и бинарную классификацию сложных эмоциональных реакций. Будущие исследования должны изучить более детализированные методы оценки, расширить языковое покрытие и исследовать культурные различия в ожиданиях относительно эмоциональных границ. Наш эталонный тест и методология предоставляют основу для систематической оценки эмоционального интеллекта и способности LLM устанавливать границы.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary