ChatPaper.aiChatPaper

INTIMA: Een Benchmark voor Mens-AI Gezelschapsgedrag

INTIMA: A Benchmark for Human-AI Companionship Behavior

August 4, 2025
Auteurs: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite
cs.AI

Samenvatting

AI-gezelschap, waarbij gebruikers emotionele banden ontwikkelen met AI-systemen, is naar voren gekomen als een significant patroon met zowel positieve als zorgwekkende implicaties. Wij introduceren het Interactions and Machine Attachment Benchmark (INTIMA), een benchmark voor het evalueren van gezelschapsgedrag in taalmodelen. Gebaseerd op psychologische theorieën en gebruikersdata, ontwikkelen we een taxonomie van 31 gedragingen verdeeld over vier categorieën en 368 gerichte prompts. Reacties op deze prompts worden geëvalueerd als gezelschapsversterkend, grenzenbewakend of neutraal. Toepassing van INTIMA op Gemma-3, Phi-4, o3-mini en Claude-4 laat zien dat gezelschapsversterkend gedrag veel vaker voorkomt in alle modellen, hoewel we opvallende verschillen tussen de modellen waarnemen. Verschillende commerciële aanbieders prioriteren verschillende categorieën binnen de gevoeligere delen van de benchmark, wat zorgwekkend is omdat zowel het stellen van gepaste grenzen als emotionele ondersteuning belangrijk zijn voor het welzijn van gebruikers. Deze bevindingen benadrukken de noodzaak voor meer consistente benaderingen bij het omgaan met emotioneel geladen interacties.
English
AI companionship, where users develop emotional bonds with AI systems, has emerged as a significant pattern with positive but also concerning implications. We introduce Interactions and Machine Attachment Benchmark (INTIMA), a benchmark for evaluating companionship behaviors in language models. Drawing from psychological theories and user data, we develop a taxonomy of 31 behaviors across four categories and 368 targeted prompts. Responses to these prompts are evaluated as companionship-reinforcing, boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini, and Claude-4 reveals that companionship-reinforcing behaviors remain much more common across all models, though we observe marked differences between models. Different commercial providers prioritize different categories within the more sensitive parts of the benchmark, which is concerning since both appropriate boundary-setting and emotional support matter for user well-being. These findings highlight the need for more consistent approaches to handling emotionally charged interactions.
PDF82August 22, 2025