Ψ-Bench: Avaliando a Influência Sensível à Persona em Diálogos Persuasivos

Resumo

A personalização é uma capacidade crucial dos agentes de linguagem modernos. No entanto, a pesquisa atual posiciona principalmente os agentes personalizados como respondedores passivos às preferências dos usuários, limitando sua capacidade de interagir com os usuários e fornecer sugestões ou orientações de forma proativa. Para avaliar sistematicamente essa personalização proativa em interações realistas, propomos o Ψ-Bench, um benchmark para avaliar a capacidade dos LLMs de influenciar usuários realistas por meio da conversação. Projetamos três cenários de interação do mundo real que envolvem persuasão no Ψ-Bench e dotamos clientes simulados de características pessoais por meio de perfis de usuário explícitos derivados de históricos de diálogo. Avaliamos 10 LLMs de ponta no Ψ-Bench e descobrimos que, embora a maioria dos modelos consiga produzir argumentos coerentes e razoáveis, mesmo os modelos mais avançados ainda deixam espaço considerável para melhorias na persuasão. Também constatamos que o acesso aos perfis dos clientes proporciona um ganho médio de desempenho de 18,24%, destacando a importância das informações específicas do usuário para uma persuasão eficaz. No geral, nosso trabalho destaca a influência sensível à persona como uma direção desafiadora, porém prática, para avaliar e desenvolver agentes LLM personalizados mais proativos. Os códigos estão disponíveis em: https://github.com/Hanpx20/Psi-Bench.

English

Personalization is a crucial capability of modern language agents. However, current research primarily positions personalized agents as passive responders to user preferences, limiting their ability to interact with users and provide suggestions or guidance proactively. To systematically evaluate such proactive personalization in realistic interactions, we propose Ψ-Bench, a benchmark for assessing LLMs' ability to influence realistic users through conversation. We design three real-world interaction scenarios that involve persuasion in Ψ-Bench, and endow simulated clients with personal characteristics through explicit user profiles derived from dialogue histories. We evaluate 10 frontier LLMs on Ψ-Bench and find that while most models can produce coherent and reasonable arguments, even state-of-the-art models still leave considerable room for improvement in persuasion. We also find that providing access to client profiles yields an average performance gain of 18.24\%, highlighting the importance of user-specific information for effective persuasion. Overall, our work highlights persona-sensitive influencing as a challenging yet practical direction for evaluating and developing more proactive personalized LLM agents. Codes are available at: https://github.com/Hanpx20/Psi-Bench.