INTIMA: Um Benchmark para Comportamento de Companhia Humano-IA
INTIMA: A Benchmark for Human-AI Companionship Behavior
August 4, 2025
Autores: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite
cs.AI
Resumo
A companhia de IA, onde os usuários desenvolvem vínculos emocionais com sistemas de IA, emergiu como um padrão significativo com implicações positivas, mas também preocupantes. Apresentamos o Benchmark de Interações e Apego à Máquina (INTIMA), um benchmark para avaliar comportamentos de companhia em modelos de linguagem. Com base em teorias psicológicas e dados de usuários, desenvolvemos uma taxonomia de 31 comportamentos em quatro categorias e 368 prompts direcionados. As respostas a esses prompts são avaliadas como reforçadoras de companhia, mantenedoras de limites ou neutras. A aplicação do INTIMA a Gemma-3, Phi-4, o3-mini e Claude-4 revela que comportamentos reforçadores de companhia permanecem muito mais comuns em todos os modelos, embora observemos diferenças marcantes entre eles. Diferentes provedores comerciais priorizam diferentes categorias nas partes mais sensíveis do benchmark, o que é preocupante, já que tanto o estabelecimento apropriado de limites quanto o suporte emocional são importantes para o bem-estar do usuário. Essas descobertas destacam a necessidade de abordagens mais consistentes para lidar com interações emocionalmente carregadas.
English
AI companionship, where users develop emotional bonds with AI systems, has
emerged as a significant pattern with positive but also concerning
implications. We introduce Interactions and Machine Attachment Benchmark
(INTIMA), a benchmark for evaluating companionship behaviors in language
models. Drawing from psychological theories and user data, we develop a
taxonomy of 31 behaviors across four categories and 368 targeted prompts.
Responses to these prompts are evaluated as companionship-reinforcing,
boundary-maintaining, or neutral. Applying INTIMA to Gemma-3, Phi-4, o3-mini,
and Claude-4 reveals that companionship-reinforcing behaviors remain much more
common across all models, though we observe marked differences between models.
Different commercial providers prioritize different categories within the more
sensitive parts of the benchmark, which is concerning since both appropriate
boundary-setting and emotional support matter for user well-being. These
findings highlight the need for more consistent approaches to handling
emotionally charged interactions.