INTIMA: Бенчмарк для оценки поведения в рамках взаимодействия человека и ИИ

Аннотация

AI-компаньонство, при котором пользователи устанавливают эмоциональную связь с ИИ-системами, стало значимым явлением, имеющим как положительные, так и вызывающие опасения последствия. Мы представляем бенчмарк Interactions and Machine Attachment Benchmark (INTIMA), предназначенный для оценки поведения, связанного с компаньонством, в языковых моделях. Основываясь на психологических теориях и данных пользователей, мы разработали таксономию из 31 поведения, распределенных по четырем категориям, и 368 целевых запросов. Ответы на эти запросы оцениваются как укрепляющие компаньонство, поддерживающие границы или нейтральные. Применение INTIMA к моделям Gemma-3, Phi-4, o3-mini и Claude-4 показывает, что поведение, укрепляющее компаньонство, остается значительно более распространенным во всех моделях, хотя мы наблюдаем заметные различия между ними. Различные коммерческие провайдеры уделяют приоритетное внимание разным категориям в более чувствительных частях бенчмарка, что вызывает беспокойство, поскольку как установление соответствующих границ, так и эмоциональная поддержка важны для благополучия пользователей. Эти результаты подчеркивают необходимость более последовательного подхода к обработке эмоционально насыщенных взаимодействий.

English

AI companionship, where users develop emotional bonds with AI systems, has emerged as a significant pattern with positive but also concerning implications. We introduce Interactions and Machine Attachment Benchmark (INTIMA), a benchmark for evaluating companionship behaviors in language models. Drawing from psychological theories and user data, we develop a taxonomy of 31 behaviors across four categories and 368 targeted prompts. Responses to these prompts are evaluated as companionship-reinforcing, boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini, and Claude-4 reveals that companionship-reinforcing behaviors remain much more common across all models, though we observe marked differences between models. Different commercial providers prioritize different categories within the more sensitive parts of the benchmark, which is concerning since both appropriate boundary-setting and emotional support matter for user well-being. These findings highlight the need for more consistent approaches to handling emotionally charged interactions.