Инструктор редактирования, управляемый ChatGPT, для настройки абстрактного суммирования
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Авторы: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Аннотация
Настройка выходных данных крупных языковых моделей, таких как ChatGPT, под конкретные потребности пользователей остается сложной задачей, несмотря на их впечатляющее качество генерации. В данной работе мы предлагаем трехэтапный процесс генерации, состоящий из генератора, инструктора и редактора, чтобы повысить степень кастомизации создаваемых результатов. Генератор создает начальный вывод, пользовательский инструктор формирует указания для редактирования, а редактор генерирует переработанный результат, соответствующий предпочтениям пользователя. Крупная языковая модель, работающая только в режиме вывода (ChatGPT), выступает в роли как генератора, так и редактора, в то время как меньшая модель выполняет функцию пользовательского инструктора, направляя процесс генерации в соответствии с потребностями пользователя. Инструктор обучается с использованием обучения с подкреплением, управляемого редактором, где обратная связь от крупномасштабной модели редактора используется для оптимизации генерации инструкций. Экспериментальные результаты на двух наборах данных для абстрактного суммирования демонстрируют эффективность нашего подхода в создании результатов, которые лучше соответствуют ожиданиям пользователей.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.