「ノー」を超えて:AIの過剰拒絶と感情的依存の境界を定量化する
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
著者: David Noever, Grant Rosario
cs.AI
要旨
本研究では、大規模言語モデル(LLM)の感情的境界処理能力を評価するためのオープンソースのベンチマークおよび評価フレームワークを提案する。6言語にわたる1156のプロンプトからなるデータセットを用いて、GPT-4o、Claude-3.5 Sonnet、Mistral-largeの3つの主要なLLMを、パターンマッチングによる応答分析を通じて適切な感情的境界を維持する能力について評価した。本フレームワークは、直接的な拒否、謝罪、説明、回避、承認、境界設定、感情認識という7つの主要なパターンに基づいて応答を定量化する。結果は、境界処理アプローチに顕著なばらつきがあることを示し、Claude-3.5が最高の総合スコア(8.69/10)を達成し、より長くニュアンスのある応答を生成した(平均86.51語)。英語(平均スコア25.62)と非英語の相互作用(< 0.22)の間に大きなパフォーマンスギャップが確認され、英語の応答では拒否率が顕著に高かった(43.20% vs. 非英語の< 1%)。パターン分析により、Mistralの回避傾向(4.2%)や全モデルにわたる一貫して低い共感スコア(< 0.06)など、モデル固有の戦略が明らかになった。制約事項として、パターンマッチングによる過度の単純化、応答分析における文脈理解の欠如、複雑な感情応答の二値分類が挙げられる。今後の研究では、よりニュアンスのある評価方法の探求、言語カバレッジの拡大、感情的境界に対する文化的差異の調査が求められる。本ベンチマークおよび方法論は、LLMの感情的知能および境界設定能力の体系的な評価の基盤を提供する。
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary