Instrutor de Edição Guiado por ChatGPT para Personalização de Sumarização Abstrata
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Autores: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Resumo
Personalizar as saídas de modelos de linguagem de grande escala, como o ChatGPT, para atender às necessidades específicas dos usuários continua sendo um desafio, apesar de sua impressionante qualidade de geração. Neste artigo, propomos um pipeline de geração tri-agente composto por um gerador, um instrutor e um editor para aprimorar a customização das saídas geradas. O gerador produz uma saída inicial, o instrutor específico do usuário gera instruções de edição, e o editor gera uma saída revisada alinhada com as preferências do usuário. O modelo de linguagem de grande escala de apenas inferência (ChatGPT) atua tanto como gerador quanto como editor, enquanto um modelo menor funciona como instrutor específico do usuário para guiar o processo de geração de acordo com as necessidades do usuário. O instrutor é treinado usando aprendizado por reforço guiado pelo editor, aproveitando o feedback do modelo editor em grande escala para otimizar a geração de instruções. Resultados experimentais em dois conjuntos de dados de sumarização abstrativa demonstram a eficácia da nossa abordagem na geração de saídas que atendem melhor às expectativas dos usuários.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.