CoSER: 既存の役割のLLMに基づくペルソナシミュレーションの調整
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
February 13, 2025
著者: Xintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou
cs.AI
要旨
役割言語エージェント(RPLAs)は、大規模言語モデル(LLMs)の有望な応用として登場しています。ただし、確立されたキャラクターのシミュレーションは、本物のキャラクターデータセットの不足やそのようなデータを使用した微妙な評価方法の欠如により、RPLAsにとって困難な課題です。本論文では、確立されたキャラクターの効果的なRPLAsに向けた高品質データセット、オープンモデル、および評価プロトコルであるCoSERを提案します。CoSERデータセットは、771冊の名著から17,966のキャラクターをカバーしています。これには、実世界の複雑さを持つ本物の対話や、会話の設定、キャラクターの経験、内面的な考えなど、さまざまなデータタイプが含まれています。演技法から着想を得て、本論文では、本のシーンでLLMsが複数のキャラクターを順次演じるためのトレーニングおよび評価に与えられた状況演技を導入します。私たちは、CoSER 8BとCoSER 70Bを開発しました。つまり、LLaMA-3.1モデルに基づいて構築された高度なオープンな役割言語モデルです。広範な実験により、CoSERデータセットがRPLAのトレーニング、評価、および検索において有用であることが示されます。さらに、CoSER 70Bは、InCharacterおよびLifeChoiceのベンチマークにおいて、GPT-4oを上回るか一致する最先端のパフォーマンスを発揮し、それぞれ75.80%と93.47%の精度を達成しています。
English
Role-playing language agents (RPLAs) have emerged as promising applications
of large language models (LLMs). However, simulating established characters
presents a challenging task for RPLAs, due to the lack of authentic character
datasets and nuanced evaluation methods using such data. In this paper, we
present CoSER, a collection of a high-quality dataset, open models, and an
evaluation protocol towards effective RPLAs of established characters. The
CoSER dataset covers 17,966 characters from 771 renowned books. It provides
authentic dialogues with real-world intricacies, as well as diverse data types
such as conversation setups, character experiences and internal thoughts.
Drawing from acting methodology, we introduce given-circumstance acting for
training and evaluating role-playing LLMs, where LLMs sequentially portray
multiple characters in book scenes. Using our dataset, we develop CoSER 8B and
CoSER 70B, i.e., advanced open role-playing LLMs built on LLaMA-3.1 models.
Extensive experiments demonstrate the value of the CoSER dataset for RPLA
training, evaluation and retrieval. Moreover, CoSER 70B exhibits
state-of-the-art performance surpassing or matching GPT-4o on our evaluation
and three existing benchmarks, i.e., achieving 75.80% and 93.47% accuracy on
the InCharacter and LifeChoice benchmarks respectively.Summary
AI-Generated Summary