Ψ-Bench : Évaluation de l'influence sensible à la persona dans les dialogues persuasifs

Résumé

La personnalisation est une capacité cruciale des agents linguistiques modernes. Cependant, la recherche actuelle positionne principalement les agents personnalisés comme des répondeurs passifs aux préférences des utilisateurs, limitant leur capacité à interagir avec eux et à fournir des suggestions ou des conseils de manière proactive. Pour évaluer systématiquement une telle personnalisation proactive dans des interactions réalistes, nous proposons Ψ-Bench, un banc d'essai pour évaluer la capacité des LLM à influencer des utilisateurs réalistes via la conversation. Nous concevons trois scénarios d'interaction réelle impliquant la persuasion dans Ψ-Bench, et dotons les clients simulés de caractéristiques personnelles via des profils utilisateur explicites dérivés d'historiques de dialogue. Nous évaluons 10 LLM de pointe sur Ψ-Bench et constatons que, bien que la plupart des modèles puissent produire des arguments cohérents et raisonnables, même les modèles les plus avancés laissent encore une marge d'amélioration considérable en matière de persuasion. Nous observons également que l'accès aux profils des clients entraîne un gain de performance moyen de 18,24 %, soulignant l'importance des informations spécifiques à l'utilisateur pour une persuasion efficace. Dans l'ensemble, notre travail met en évidence l'influence sensible au profil comme une direction difficile mais pratique pour évaluer et développer des agents LLM personnalisés plus proactifs. Les codes sont disponibles à l'adresse : https://github.com/Hanpx20/Psi-Bench.

English

Personalization is a crucial capability of modern language agents. However, current research primarily positions personalized agents as passive responders to user preferences, limiting their ability to interact with users and provide suggestions or guidance proactively. To systematically evaluate such proactive personalization in realistic interactions, we propose Ψ-Bench, a benchmark for assessing LLMs' ability to influence realistic users through conversation. We design three real-world interaction scenarios that involve persuasion in Ψ-Bench, and endow simulated clients with personal characteristics through explicit user profiles derived from dialogue histories. We evaluate 10 frontier LLMs on Ψ-Bench and find that while most models can produce coherent and reasonable arguments, even state-of-the-art models still leave considerable room for improvement in persuasion. We also find that providing access to client profiles yields an average performance gain of 18.24\%, highlighting the importance of user-specific information for effective persuasion. Overall, our work highlights persona-sensitive influencing as a challenging yet practical direction for evaluating and developing more proactive personalized LLM agents. Codes are available at: https://github.com/Hanpx20/Psi-Bench.