Grote Taalmodellen zijn Superposities van Alle Karakters: Het Bereiken van Willekeurige Role-play via Zelf-uitlijning

Samenvatting

Aanzienlijke inspanningen zijn geleverd om de rolspelvaardigheden van open-source grote taalmodellen (LLMs) te verbeteren door propriëtaire tegenhangers na te bootsen. Niettemin stellen wij dat LLMs van nature rolspelcapaciteiten bezitten, dankzij de uitgebreide kennis van personages en potentiële dialogen die verankerd zijn in hun omvangrijke trainingscorpora. Daarom introduceren wij in deze studie Ditto, een zelf-uitlijningsmethode voor rolspel. Ditto maakt gebruik van karakterkennis en moedigt een instructievolgend LLM aan om rolspeldialogen te simuleren als een variant van leesbegrip. Deze methode creëert een rolspeltrainingsset bestaande uit 4.000 personages, wat de schaal van momenteel beschikbare datasets tienvoudig overtreft wat betreft het aantal rollen. Vervolgens fine-tunen we het LLM met behulp van deze zelf gegenereerde dataset om de rolspelcapaciteiten te vergroten. Bij het evalueren van ons zorgvuldig opgebouwde en reproduceerbare rolspelbenchmark en de rolspelsubset van MT-Bench, behoudt Ditto, in verschillende parameterschalen, consistent een consistente rolidentiteit en biedt het nauwkeurige, rol-specifieke kennis in meerzijdige rolspelgesprekken. Opmerkelijk is dat het alle open-source rolspel-baselines overtreft en prestatieniveaus laat zien die vergelijkbaar zijn met geavanceerde propriëtaire chatbots. Bovendien presenteren we het eerste uitgebreide kruis-supervisie-uitlijnings-experiment in het rolspeldomein, dat aantoont dat de intrinsieke capaciteiten van LLMs de kennis binnen rolspel beperken. Tegelijkertijd kunnen de rolspelstijlen gemakkelijk worden verworven met de begeleiding van kleinere modellen. We openbaren gerelateerde bronnen op https://github.com/OFA-Sys/Ditto.

English

Considerable efforts have been invested in augmenting the role-playing proficiency of open-source large language models (LLMs) by emulating proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor role-play capabilities, owing to the extensive knowledge of characters and potential dialogues ingrained in their vast training corpora. Thus, in this study, we introduce Ditto, a self-alignment method for role-play. Ditto capitalizes on character knowledge, encouraging an instruction-following LLM to simulate role-play dialogues as a variant of reading comprehension. This method creates a role-play training set comprising 4,000 characters, surpassing the scale of currently available datasets by tenfold regarding the number of roles. Subsequently, we fine-tune the LLM using this self-generated dataset to augment its role-playing capabilities. Upon evaluating our meticulously constructed and reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in various parameter scales, consistently maintains a consistent role identity and provides accurate role-specific knowledge in multi-turn role-play conversations. Notably, it outperforms all open-source role-play baselines, showcasing performance levels comparable to advanced proprietary chatbots. Furthermore, we present the first comprehensive cross-supervision alignment experiment in the role-play domain, revealing that the intrinsic capabilities of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles can be easily acquired with the guidance of smaller models. We open-source related resources at https://github.com/OFA-Sys/Ditto.

Grote Taalmodellen zijn Superposities van Alle Karakters: Het Bereiken van Willekeurige Role-play via Zelf-uitlijning

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

Samenvatting

Support