ChatPaper.aiChatPaper

Rollenspielbasierte Evaluation für große Sprachmodelle

Role-Playing Evaluation for Large Language Models

May 19, 2025
Autoren: Yassine El Boudouri, Walter Nuninger, Julian Alvarez, Yvan Peter
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, Personas anzunehmen und in Rollenspiele einzutreten. Die Bewertung dieser Fähigkeit stellt jedoch erhebliche Herausforderungen dar, da menschliche Bewertungen ressourcenintensiv sind und automatisierte Bewertungen voreingenommen sein können. Um dies zu adressieren, führen wir Role-Playing Eval (RPEval) ein, einen neuartigen Benchmark, der darauf abzielt, die Rollenspielfähigkeiten von LLMs in vier Schlüsseldimensionen zu bewerten: emotionales Verständnis, Entscheidungsfindung, moralische Ausrichtung und Charaktertreue. Dieser Artikel beschreibt die Konstruktion von RPEval und präsentiert Baseline-Bewertungen. Unser Code und Datensatz sind unter https://github.com/yelboudouri/RPEval verfügbar.
English
Large Language Models (LLMs) demonstrate a notable capacity for adopting personas and engaging in role-playing. However, evaluating this ability presents significant challenges, as human assessments are resource-intensive and automated evaluations can be biased. To address this, we introduce Role-Playing Eval (RPEval), a novel benchmark designed to assess LLM role-playing capabilities across four key dimensions: emotional understanding, decision-making, moral alignment, and in-character consistency. This article details the construction of RPEval and presents baseline evaluations. Our code and dataset are available at https://github.com/yelboudouri/RPEval
PDF72June 2, 2025