Ψ-Bench: Оценка влияния, чувствительного к персоне, в убеждающих диалогах

Аннотация

Персонализация является ключевой способностью современных языковых агентов. Однако текущие исследования в основном рассматривают персонализированных агентов как пассивных реагирующих на предпочтения пользователей, что ограничивает их способность взаимодействовать с пользователями и активно предлагать рекомендации или давать указания. Для систематической оценки такой активной персонализации в реалистичных взаимодействиях мы предлагаем Ψ-Bench — эталон для оценки способности LLM влиять на реальных пользователей через диалог. Мы разработали три сценария реального взаимодействия, включающих убеждение в Ψ-Bench, и наделили симулированных клиентов личностными характеристиками с помощью явных профилей пользователей, созданных на основе истории диалогов. Мы оценили 10 передовых LLM на Ψ-Bench и обнаружили, что, хотя большинство моделей могут генерировать связные и разумные аргументы, даже самые современные модели все еще имеют значительные возможности для улучшения в области убеждения. Мы также выяснили, что предоставление доступа к профилям клиентов дает средний прирост производительности на 18,24%, что подчеркивает важность специфической для пользователя информации для эффективного убеждения. В целом, наша работа выделяет чувствительное к личности влияние как сложное, но практичное направление для оценки и разработки более активных персонализированных LLM-агентов. Коды доступны по адресу: https://github.com/Hanpx20/Psi-Bench.

English

Personalization is a crucial capability of modern language agents. However, current research primarily positions personalized agents as passive responders to user preferences, limiting their ability to interact with users and provide suggestions or guidance proactively. To systematically evaluate such proactive personalization in realistic interactions, we propose Ψ-Bench, a benchmark for assessing LLMs' ability to influence realistic users through conversation. We design three real-world interaction scenarios that involve persuasion in Ψ-Bench, and endow simulated clients with personal characteristics through explicit user profiles derived from dialogue histories. We evaluate 10 frontier LLMs on Ψ-Bench and find that while most models can produce coherent and reasonable arguments, even state-of-the-art models still leave considerable room for improvement in persuasion. We also find that providing access to client profiles yields an average performance gain of 18.24\%, highlighting the importance of user-specific information for effective persuasion. Overall, our work highlights persona-sensitive influencing as a challenging yet practical direction for evaluating and developing more proactive personalized LLM agents. Codes are available at: https://github.com/Hanpx20/Psi-Bench.