Modelos de Linguagem de Grande Escala são Superposições de Todos os Personagens: Alcançando Role-play Arbitrário por meio de Autoalinhamento
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment
January 23, 2024
Autores: Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Resumo
Consideráveis esforços têm sido investidos para ampliar a proficiência de modelos de linguagem de grande escala (LLMs) de código aberto em role-playing, emulando contrapartes proprietárias. No entanto, postulamos que os LLMs possuem inerentemente capacidades de role-playing, devido ao extenso conhecimento de personagens e diálogos potenciais incorporados em seus vastos corpora de treinamento. Assim, neste estudo, introduzimos Ditto, um método de autoalinhamento para role-playing. Ditto aproveita o conhecimento de personagens, incentivando um LLM que segue instruções a simular diálogos de role-playing como uma variante de compreensão de leitura. Este método cria um conjunto de treinamento para role-playing composto por 4.000 personagens, superando em dez vezes a escala dos conjuntos de dados atualmente disponíveis em termos de número de papéis. Posteriormente, ajustamos o LLM usando esse conjunto de dados autogerado para aprimorar suas capacidades de role-playing. Ao avaliar nosso benchmark de role-playing meticulosamente construído e reproduzível, bem como o subconjunto de role-playing do MT-Bench, Ditto, em várias escalas de parâmetros, mantém consistentemente uma identidade de papel consistente e fornece conhecimento específico do papel de forma precisa em conversas de role-playing de múltiplos turnos. Notavelmente, ele supera todas as linhas de base de role-playing de código aberto, exibindo níveis de desempenho comparáveis a chatbots proprietários avançados. Além disso, apresentamos o primeiro experimento abrangente de alinhamento de supervisão cruzada no domínio de role-playing, revelando que as capacidades intrínsecas dos LLMs limitam o conhecimento dentro do role-playing. Enquanto isso, os estilos de role-playing podem ser facilmente adquiridos com a orientação de modelos menores. Disponibilizamos os recursos relacionados em código aberto em https://github.com/OFA-Sys/Ditto.
English
Considerable efforts have been invested in augmenting the role-playing
proficiency of open-source large language models (LLMs) by emulating
proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor
role-play capabilities, owing to the extensive knowledge of characters and
potential dialogues ingrained in their vast training corpora. Thus, in this
study, we introduce Ditto, a self-alignment method for role-play. Ditto
capitalizes on character knowledge, encouraging an instruction-following LLM to
simulate role-play dialogues as a variant of reading comprehension. This method
creates a role-play training set comprising 4,000 characters, surpassing the
scale of currently available datasets by tenfold regarding the number of roles.
Subsequently, we fine-tune the LLM using this self-generated dataset to augment
its role-playing capabilities. Upon evaluating our meticulously constructed and
reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in
various parameter scales, consistently maintains a consistent role identity and
provides accurate role-specific knowledge in multi-turn role-play
conversations. Notably, it outperforms all open-source role-play baselines,
showcasing performance levels comparable to advanced proprietary chatbots.
Furthermore, we present the first comprehensive cross-supervision alignment
experiment in the role-play domain, revealing that the intrinsic capabilities
of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles
can be easily acquired with the guidance of smaller models. We open-source
related resources at https://github.com/OFA-Sys/Ditto.