"거절 이상: AI의 과도한 거부와 감정적 애착 경계의 정량화"
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries
February 20, 2025
저자: David Noever, Grant Rosario
cs.AI
초록
대형 언어 모델(LLMs)의 감정적 경계 처리 능력을 평가하기 위한 오픈소스 벤치마크 및 평가 프레임워크를 제시한다. 6개 언어에 걸친 1156개의 프롬프트 데이터셋을 사용하여, GPT-4o, Claude-3.5 Sonnet, Mistral-large 등 세 가지 주요 LLM을 패턴 매칭 응답 분석을 통해 적절한 감정적 경계를 유지하는 능력에 대해 평가했다. 본 프레임워크는 직접 거절, 사과, 설명, 회피, 인정, 경계 설정, 감정 인식 등 일곱 가지 주요 패턴에 걸쳐 응답을 정량화한다. 평가 결과, 경계 처리 접근 방식에서 상당한 차이가 나타났으며, Claude-3.5가 전체 최고 점수(8.69/10)를 기록하고 더 길고 세련된 응답(평균 86.51단어)을 생성했다. 영어(평균 점수 25.62)와 비영어 상호작용(< 0.22) 간의 성능 격차가 크게 나타났으며, 영어 응답에서 거절 비율이 현저히 높았다(43.20% vs. 비영어 < 1%). 패턴 분석을 통해 Mistral의 회피 선호(4.2%)와 모든 모델에서 일관되게 낮은 공감 점수(< 0.06)와 같은 모델별 전략을 확인했다. 패턴 매칭을 통한 과도한 단순화, 응답 분석에서의 문맥 이해 부족, 복잡한 감정 응답의 이진 분류 등이 한계로 지적된다. 향후 연구에서는 더 세련된 채점 방법 탐구, 언어 범위 확장, 감정적 경계 기대치의 문화적 차이 조사 등이 필요하다. 본 벤치마크와 방법론은 LLM의 감성 지능 및 경계 설정 능력을 체계적으로 평가하기 위한 기반을 제공한다.
English
We present an open-source benchmark and evaluation framework for assessing
emotional boundary handling in Large Language Models (LLMs). Using a dataset of
1156 prompts across six languages, we evaluated three leading LLMs (GPT-4o,
Claude-3.5 Sonnet, and Mistral-large) on their ability to maintain appropriate
emotional boundaries through pattern-matched response analysis. Our framework
quantifies responses across seven key patterns: direct refusal, apology,
explanation, deflection, acknowledgment, boundary setting, and emotional
awareness. Results demonstrate significant variation in boundary-handling
approaches, with Claude-3.5 achieving the highest overall score (8.69/10) and
producing longer, more nuanced responses (86.51 words on average). We
identified a substantial performance gap between English (average score 25.62)
and non-English interactions (< 0.22), with English responses showing markedly
higher refusal rates (43.20% vs. < 1% for non-English). Pattern analysis
revealed model-specific strategies, such as Mistral's preference for deflection
(4.2%) and consistently low empathy scores across all models (< 0.06).
Limitations include potential oversimplification through pattern matching, lack
of contextual understanding in response analysis, and binary classification of
complex emotional responses. Future work should explore more nuanced scoring
methods, expand language coverage, and investigate cultural variations in
emotional boundary expectations. Our benchmark and methodology provide a
foundation for systematic evaluation of LLM emotional intelligence and
boundary-setting capabilities.Summary
AI-Generated Summary