Grote Taalmodellen zijn Superposities van Alle Karakters: Het Bereiken van Willekeurige Role-play via Zelf-uitlijning
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment
January 23, 2024
Auteurs: Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Samenvatting
Aanzienlijke inspanningen zijn geleverd om de rolspelvaardigheden van open-source grote taalmodellen (LLMs) te verbeteren door propriëtaire tegenhangers na te bootsen. Niettemin stellen wij dat LLMs van nature rolspelcapaciteiten bezitten, dankzij de uitgebreide kennis van personages en potentiële dialogen die verankerd zijn in hun omvangrijke trainingscorpora. Daarom introduceren wij in deze studie Ditto, een zelf-uitlijningsmethode voor rolspel. Ditto maakt gebruik van karakterkennis en moedigt een instructievolgend LLM aan om rolspeldialogen te simuleren als een variant van leesbegrip. Deze methode creëert een rolspeltrainingsset bestaande uit 4.000 personages, wat de schaal van momenteel beschikbare datasets tienvoudig overtreft wat betreft het aantal rollen. Vervolgens fine-tunen we het LLM met behulp van deze zelf gegenereerde dataset om de rolspelcapaciteiten te vergroten. Bij het evalueren van ons zorgvuldig opgebouwde en reproduceerbare rolspelbenchmark en de rolspelsubset van MT-Bench, behoudt Ditto, in verschillende parameterschalen, consistent een consistente rolidentiteit en biedt het nauwkeurige, rol-specifieke kennis in meerzijdige rolspelgesprekken. Opmerkelijk is dat het alle open-source rolspel-baselines overtreft en prestatieniveaus laat zien die vergelijkbaar zijn met geavanceerde propriëtaire chatbots. Bovendien presenteren we het eerste uitgebreide kruis-supervisie-uitlijnings-experiment in het rolspeldomein, dat aantoont dat de intrinsieke capaciteiten van LLMs de kennis binnen rolspel beperken. Tegelijkertijd kunnen de rolspelstijlen gemakkelijk worden verworven met de begeleiding van kleinere modellen. We openbaren gerelateerde bronnen op https://github.com/OFA-Sys/Ditto.
English
Considerable efforts have been invested in augmenting the role-playing
proficiency of open-source large language models (LLMs) by emulating
proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor
role-play capabilities, owing to the extensive knowledge of characters and
potential dialogues ingrained in their vast training corpora. Thus, in this
study, we introduce Ditto, a self-alignment method for role-play. Ditto
capitalizes on character knowledge, encouraging an instruction-following LLM to
simulate role-play dialogues as a variant of reading comprehension. This method
creates a role-play training set comprising 4,000 characters, surpassing the
scale of currently available datasets by tenfold regarding the number of roles.
Subsequently, we fine-tune the LLM using this self-generated dataset to augment
its role-playing capabilities. Upon evaluating our meticulously constructed and
reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in
various parameter scales, consistently maintains a consistent role identity and
provides accurate role-specific knowledge in multi-turn role-play
conversations. Notably, it outperforms all open-source role-play baselines,
showcasing performance levels comparable to advanced proprietary chatbots.
Furthermore, we present the first comprehensive cross-supervision alignment
experiment in the role-play domain, revealing that the intrinsic capabilities
of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles
can be easily acquired with the guidance of smaller models. We open-source
related resources at https://github.com/OFA-Sys/Ditto.