Крупные языковые модели являются суперпозициями всех персонажей: достижение произвольного ролевого взаимодействия через самонастройку
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment
January 23, 2024
Авторы: Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Аннотация
Значительные усилия были направлены на повышение мастерства ролевой игры у открытых крупных языковых моделей (LLM) путем эмуляции их проприетарных аналогов. Тем не менее, мы утверждаем, что LLM изначально обладают способностями к ролевой игре благодаря обширным знаниям о персонажах и потенциальных диалогах, заложенным в их обширных обучающих корпусах. Таким образом, в данном исследовании мы представляем Ditto — метод самонастройки для ролевой игры. Ditto использует знания о персонажах, побуждая LLM, ориентированную на выполнение инструкций, моделировать ролевые диалоги как вариант понимания прочитанного. Этот метод создает набор данных для обучения ролевой игре, включающий 4 000 персонажей, что в десять раз превышает масштаб доступных на данный момент наборов данных по количеству ролей. Затем мы дообучаем LLM с использованием этого самостоятельно сгенерированного набора данных для улучшения ее способностей к ролевой игре. При оценке нашего тщательно разработанного и воспроизводимого бенчмарка для ролевой игры и подмножества ролевых игр в MT-Bench, Ditto, на различных масштабах параметров, последовательно сохраняет идентичность роли и предоставляет точные знания, специфичные для роли, в многоходовых ролевых диалогах. Примечательно, что он превосходит все открытые базовые модели для ролевой игры, демонстрируя уровень производительности, сопоставимый с передовыми проприетарными чат-ботами. Кроме того, мы представляем первый всесторонний эксперимент по кросс-супервизорной настройке в области ролевой игры, который показывает, что внутренние возможности LLM ограничивают знания в рамках ролевой игры. В то же время стили ролевой игры могут быть легко освоены под руководством более мелких моделей. Мы открываем доступ к связанным ресурсам по адресу https://github.com/OFA-Sys/Ditto.
English
Considerable efforts have been invested in augmenting the role-playing
proficiency of open-source large language models (LLMs) by emulating
proprietary counterparts. Nevertheless, we posit that LLMs inherently harbor
role-play capabilities, owing to the extensive knowledge of characters and
potential dialogues ingrained in their vast training corpora. Thus, in this
study, we introduce Ditto, a self-alignment method for role-play. Ditto
capitalizes on character knowledge, encouraging an instruction-following LLM to
simulate role-play dialogues as a variant of reading comprehension. This method
creates a role-play training set comprising 4,000 characters, surpassing the
scale of currently available datasets by tenfold regarding the number of roles.
Subsequently, we fine-tune the LLM using this self-generated dataset to augment
its role-playing capabilities. Upon evaluating our meticulously constructed and
reproducible role-play benchmark and the roleplay subset of MT-Bench, Ditto, in
various parameter scales, consistently maintains a consistent role identity and
provides accurate role-specific knowledge in multi-turn role-play
conversations. Notably, it outperforms all open-source role-play baselines,
showcasing performance levels comparable to advanced proprietary chatbots.
Furthermore, we present the first comprehensive cross-supervision alignment
experiment in the role-play domain, revealing that the intrinsic capabilities
of LLMs confine the knowledge within role-play. Meanwhile, the role-play styles
can be easily acquired with the guidance of smaller models. We open-source
related resources at https://github.com/OFA-Sys/Ditto.