Rollenspielbasierte Evaluation für große Sprachmodelle
Role-Playing Evaluation for Large Language Models
May 19, 2025
Autoren: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, Personas anzunehmen und in Rollenspiele einzutreten. Die Bewertung dieser Fähigkeit stellt jedoch erhebliche Herausforderungen dar, da menschliche Bewertungen ressourcenintensiv sind und automatisierte Bewertungen voreingenommen sein können. Um dies zu adressieren, führen wir Role-Playing Eval (RPEval) ein, einen neuartigen Benchmark, der darauf abzielt, die Rollenspielfähigkeiten von LLMs in vier Schlüsseldimensionen zu bewerten: emotionales Verständnis, Entscheidungsfindung, moralische Ausrichtung und Charaktertreue. Dieser Artikel beschreibt die Konstruktion von RPEval und präsentiert Baseline-Bewertungen. Unser Code und Datensatz sind unter https://github.com/yelboudouri/RPEval verfügbar.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting
personas and engaging in role-playing. However, evaluating this ability
presents significant challenges, as human assessments are resource-intensive
and automated evaluations can be biased. To address this, we introduce
Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM
role-playing capabilities across four key dimensions: emotional understanding,
decision-making, moral alignment, and in-character consistency. This article
details the construction of RPEval and presents baseline evaluations. Our code
and dataset are available at https://github.com/yelboudouri/RPEval