Ψ-Bench: Evaluierung personasensitiver Beeinflussung in persuasiven Dialogen

Zusammenfassung

Personalisierung ist eine entscheidende Fähigkeit moderner Sprachagenten. Die aktuelle Forschung stellt personalisierte Agenten jedoch in erster Linie als passive Reagierer auf Nutzerpräferenzen dar, was ihre Fähigkeit einschränkt, mit Nutzern zu interagieren und proaktiv Vorschläge oder Anleitungen zu geben. Um eine solche proaktive Personalisierung in realistischen Interaktionen systematisch zu bewerten, schlagen wir Ψ-Bench vor, einen Benchmark zur Bewertung der Fähigkeit von LLMs, realistische Nutzer durch Konversation zu beeinflussen. Wir entwerfen drei realistische Interaktionsszenarien, die Überzeugung in Ψ-Bench beinhalten, und statten simulierte Klienten mit persönlichen Eigenschaften aus, die aus expliziten, aus Gesprächsverläufen abgeleiteten Nutzerprofilen stammen. Wir bewerten zehn führende LLMs auf Ψ-Bench und stellen fest, dass die meisten Modelle zwar kohärente und vernünftige Argumente hervorbringen können, selbst modernste Modelle jedoch noch erheblichen Raum für Verbesserungen in der Überzeugungskraft lassen. Wir stellen außerdem fest, dass der Zugang zu Klientenprofilen eine durchschnittliche Leistungssteigerung von 18,24 % bringt, was die Bedeutung nutzerspezifischer Informationen für eine effektive Überzeugung unterstreicht. Insgesamt hebt unsere Arbeit persona-sensitives Beeinflussen als eine herausfordernde, aber praktische Richtung für die Bewertung und Entwicklung proaktiverer personalisierter LLM-Agenten hervor. Der Code ist verfügbar unter: https://github.com/Hanpx20/Psi-Bench.

English

Personalization is a crucial capability of modern language agents. However, current research primarily positions personalized agents as passive responders to user preferences, limiting their ability to interact with users and provide suggestions or guidance proactively. To systematically evaluate such proactive personalization in realistic interactions, we propose Ψ-Bench, a benchmark for assessing LLMs' ability to influence realistic users through conversation. We design three real-world interaction scenarios that involve persuasion in Ψ-Bench, and endow simulated clients with personal characteristics through explicit user profiles derived from dialogue histories. We evaluate 10 frontier LLMs on Ψ-Bench and find that while most models can produce coherent and reasonable arguments, even state-of-the-art models still leave considerable room for improvement in persuasion. We also find that providing access to client profiles yields an average performance gain of 18.24\%, highlighting the importance of user-specific information for effective persuasion. Overall, our work highlights persona-sensitive influencing as a challenging yet practical direction for evaluating and developing more proactive personalized LLM agents. Codes are available at: https://github.com/Hanpx20/Psi-Bench.