Große Sprachmodelle sind Superpositionen aller Charaktere: Erreichen von beliebiger Rollenspiel-Fähigkeit durch Selbstausrichtung
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment
January 23, 2024
Autoren: Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Zusammenfassung
Erhebliche Anstrengungen wurden unternommen, um die Rollenspielfähigkeiten von Open-Source-Großsprachmodellen (LLMs) zu verbessern, indem proprietäre Gegenstücke nachgeahmt wurden. Dennoch vertreten wir die Ansicht, dass LLMs von Natur aus Rollenspielfähigkeiten besitzen, da sie über umfangreiches Wissen über Charaktere und potenzielle Dialoge verfügen, das in ihren umfangreichen Trainingskorpora verankert ist. Daher stellen wir in dieser Studie Ditto vor, eine Methode zur Selbstausrichtung für das Rollenspiel. Ditto nutzt das Charakterwissen und ermutigt ein befehlsfolgendes LLM, Rollenspieldialoge als Variante des Leseverständnisses zu simulieren. Diese Methode erstellt einen Rollenspiel-Trainingsdatensatz, der 4.000 Charaktere umfasst und die Anzahl der Rollen im Vergleich zu derzeit verfügbaren Datensätzen um das Zehnfache übertrifft. Anschließend wird das LLM mit diesem selbst generierten Datensatz feinabgestimmt, um seine Rollenspielfähigkeiten zu verbessern. Bei der Bewertung unseres sorgfältig konstruierten und reproduzierbaren Rollenspiel-Benchmarks sowie der Rollenspiel-Teilmenge von MT-Bench zeigt Ditto in verschiedenen Parametergrößen eine konsistente Rollenidentität und liefert präzises rollenspezifisches Wissen in mehrteiligen Rollenspielgesprächen. Bemerkenswerterweise übertrifft es alle Open-Source-Rollenspiel-Baselines und zeigt Leistungsniveaus, die mit fortschrittlichen proprietären Chatbots vergleichbar sind. Darüber hinaus präsentieren wir das erste umfassende Cross-Supervision-Alignment-Experiment im Bereich des Rollenspiels, das zeigt, dass die intrinsischen Fähigkeiten von LLMs das Wissen im Rollenspiel begrenzen. Gleichzeitig können die Rollenspielstile leicht mit der Anleitung kleinerer Modelle erworben werden. Wir stellen die relevanten Ressourcen unter https://github.com/OFA-Sys/Ditto als Open Source zur Verfügung.
English
Considerable efforts have been invested in augmenting the role-playing
proficiency of open-source large language models (LLMs) by emulating
proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor
role-play capabilities, owing to the extensive knowledge of characters and
potential dialogues ingrained in their vast training corpora. Thus, in this
study, we introduce Ditto, a self-alignment method for role-play. Ditto
capitalizes on character knowledge, encouraging an instruction-following LLM to
simulate role-play dialogues as a variant of reading comprehension. This method
creates a role-play training set comprising 4,000 characters, surpassing the
scale of currently available datasets by tenfold regarding the number of roles.
Subsequently, we fine-tune the LLM using this self-generated dataset to augment
its role-playing capabilities. Upon evaluating our meticulously constructed and
reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in
various parameter scales, consistently maintains a consistent role identity and
provides accurate role-specific knowledge in multi-turn role-play
conversations. Notably, it outperforms all open-source role-play baselines,
showcasing performance levels comparable to advanced proprietary chatbots.
Furthermore, we present the first comprehensive cross-supervision alignment
experiment in the role-play domain, revealing that the intrinsic capabilities
of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles
can be easily acquired with the guidance of smaller models. We open-source
related resources at https://github.com/OFA-Sys/Ditto.