ChatPaper.aiChatPaper

Les grands modèles de langage sont des superpositions de tous les personnages : atteindre un jeu de rôle arbitraire via l'auto-alignement.

Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment

January 23, 2024
Auteurs: Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI

Résumé

Des efforts considérables ont été déployés pour augmenter la compétence en jeu de rôle des modèles de langage à grande échelle (LLMs) open-source en imitant leurs homologues propriétaires. Néanmoins, nous postulons que les LLMs possèdent intrinsèquement des capacités de jeu de rôle, en raison de la connaissance approfondie des personnages et des dialogues potentiels intégrés dans leurs vastes corpus d’entraînement. Ainsi, dans cette étude, nous présentons Ditto, une méthode d’auto-alignement pour le jeu de rôle. Ditto exploite la connaissance des personnages, encourageant un LLM suivant des instructions à simuler des dialogues de jeu de rôle comme une variante de compréhension de lecture. Cette méthode crée un ensemble de données d’entraînement pour le jeu de rôle comprenant 4 000 personnages, dépassant de dix fois l’échelle des ensembles de données actuellement disponibles en termes de nombre de rôles. Par la suite, nous affinons le LLM en utilisant cet ensemble de données auto-généré pour améliorer ses capacités de jeu de rôle. Lors de l’évaluation de notre benchmark de jeu de rôle méticuleusement construit et reproductible, ainsi que du sous-ensemble de jeu de rôle de MT-Bench, Ditto, à différentes échelles de paramètres, maintient systématiquement une identité de rôle cohérente et fournit des connaissances spécifiques au rôle précises dans des conversations de jeu de rôle à plusieurs tours. Notamment, il surpasse toutes les bases de référence open-source en jeu de rôle, démontrant des niveaux de performance comparables à ceux des chatbots propriétaires avancés. De plus, nous présentons la première expérience d’alignement croisé-supervisé complète dans le domaine du jeu de rôle, révélant que les capacités intrinsèques des LLMs limitent la connaissance dans le jeu de rôle. Parallèlement, les styles de jeu de rôle peuvent être facilement acquis avec l’orientation de modèles plus petits. Nous rendons les ressources associées open-source à l’adresse https://github.com/OFA-Sys/Ditto.
English
Considerable efforts have been invested in augmenting the role-playing proficiency of open-source large language models (LLMs) by emulating proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor role-play capabilities, owing to the extensive knowledge of characters and potential dialogues ingrained in their vast training corpora. Thus, in this study, we introduce Ditto, a self-alignment method for role-play. Ditto capitalizes on character knowledge, encouraging an instruction-following LLM to simulate role-play dialogues as a variant of reading comprehension. This method creates a role-play training set comprising 4,000 characters, surpassing the scale of currently available datasets by tenfold regarding the number of roles. Subsequently, we fine-tune the LLM using this self-generated dataset to augment its role-playing capabilities. Upon evaluating our meticulously constructed and reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in various parameter scales, consistently maintains a consistent role identity and provides accurate role-specific knowledge in multi-turn role-play conversations. Notably, it outperforms all open-source role-play baselines, showcasing performance levels comparable to advanced proprietary chatbots. Furthermore, we present the first comprehensive cross-supervision alignment experiment in the role-play domain, revealing that the intrinsic capabilities of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles can be easily acquired with the guidance of smaller models. We open-source related resources at https://github.com/OFA-Sys/Ditto.
PDF371December 15, 2024