INTIMA: 인간-AI 동반자 행동을 위한 벤치마크
INTIMA: A Benchmark for Human-AI Companionship Behavior
August 4, 2025
저자: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite
cs.AI
초록
AI 동반자 관계, 즉 사용자가 AI 시스템과 감정적 유대를 형성하는 현상은 긍정적이면서도 우려스러운 함의를 지닌 중요한 패턴으로 부상하고 있다. 본 연구에서는 언어 모델의 동반자 행동을 평가하기 위한 벤치마크인 상호작용 및 기계 애착 벤치마크(INTIMA)를 소개한다. 심리학 이론과 사용자 데이터를 바탕으로, 우리는 4개 범주에 걸쳐 31가지 행동과 368개의 표적 프롬프트로 구성된 분류 체계를 개발하였다. 이러한 프롬프트에 대한 응답은 동반자 관계 강화, 경계 유지, 중립으로 평가된다. INTIMA를 Gemma-3, Phi-4, o3-mini, Claude-4에 적용한 결과, 모든 모델에서 동반자 관계 강화 행동이 훨씬 더 일반적으로 나타났으나, 모델 간에 뚜렷한 차이가 관찰되었다. 상업적 제공자들은 벤치마크의 더 민감한 부분에서 서로 다른 범주를 우선시하는데, 이는 사용자의 웰빙을 위해 적절한 경계 설정과 감정적 지원이 모두 중요하다는 점에서 우려스러운 부분이다. 이러한 발견은 감정적으로 민감한 상호작용을 처리하는 데 있어 더 일관된 접근 방식의 필요성을 강조한다.
English
AI companionship, where users develop emotional bonds with AI systems, has
emerged as a significant pattern with positive but also concerning
implications. We introduce Interactions and Machine Attachment Benchmark
(INTIMA), a benchmark for evaluating companionship behaviors in language
models. Drawing from psychological theories and user data, we develop a
taxonomy of 31 behaviors across four categories and 368 targeted prompts.
Responses to these prompts are evaluated as companionship-reinforcing,
boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini,
and Claude-4 reveals that companionship-reinforcing behaviors remain much more
common across all models, though we observe marked differences between models.
Different commercial providers prioritize different categories within the more
sensitive parts of the benchmark, which is concerning since both appropriate
boundary-setting and emotional support matter for user well-being. These
findings highlight the need for more consistent approaches to handling
emotionally charged interactions.