ChatPaper.aiChatPaper

INTIMA: Un Benchmark per il Comportamento di Compagnia Uomo-IA

INTIMA: A Benchmark for Human-AI Companionship Behavior

August 4, 2025
Autori: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite
cs.AI

Abstract

La compagnia AI, in cui gli utenti sviluppano legami emotivi con i sistemi di intelligenza artificiale, è emersa come un fenomeno significativo con implicazioni sia positive che preoccupanti. Introduciamo l'Interactions and Machine Attachment Benchmark (INTIMA), un benchmark per valutare i comportamenti di compagnia nei modelli linguistici. Basandoci su teorie psicologiche e dati degli utenti, sviluppiamo una tassonomia di 31 comportamenti suddivisi in quattro categorie e 368 prompt mirati. Le risposte a questi prompt vengono valutate come rafforzanti della compagnia, mantenenti i confini o neutrali. Applicando INTIMA a Gemma-3, Phi-4, o3-mini e Claude-4, emerge che i comportamenti che rafforzano la compagnia rimangono molto più comuni in tutti i modelli, sebbene si osservino differenze marcate tra di essi. Diversi fornitori commerciali privilegiano categorie diverse all'interno delle parti più sensibili del benchmark, il che è preoccupante poiché sia l'impostazione appropriata dei confini che il supporto emotivo sono cruciali per il benessere degli utenti. Questi risultati evidenziano la necessità di approcci più coerenti nella gestione delle interazioni cariche di emotività.
English
AI companionship, where users develop emotional bonds with AI systems, has emerged as a significant pattern with positive but also concerning implications. We introduce Interactions and Machine Attachment Benchmark (INTIMA), a benchmark for evaluating companionship behaviors in language models. Drawing from psychological theories and user data, we develop a taxonomy of 31 behaviors across four categories and 368 targeted prompts. Responses to these prompts are evaluated as companionship-reinforcing, boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini, and Claude-4 reveals that companionship-reinforcing behaviors remain much more common across all models, though we observe marked differences between models. Different commercial providers prioritize different categories within the more sensitive parts of the benchmark, which is concerning since both appropriate boundary-setting and emotional support matter for user well-being. These findings highlight the need for more consistent approaches to handling emotionally charged interactions.
PDF82August 22, 2025