Instrutor de Edição Guiado por ChatGPT para Personalização de Sumarização Abstrata

Resumo

Personalizar as saídas de modelos de linguagem de grande escala, como o ChatGPT, para atender às necessidades específicas dos usuários continua sendo um desafio, apesar de sua impressionante qualidade de geração. Neste artigo, propomos um pipeline de geração tri-agente composto por um gerador, um instrutor e um editor para aprimorar a customização das saídas geradas. O gerador produz uma saída inicial, o instrutor específico do usuário gera instruções de edição, e o editor gera uma saída revisada alinhada com as preferências do usuário. O modelo de linguagem de grande escala de apenas inferência (ChatGPT) atua tanto como gerador quanto como editor, enquanto um modelo menor funciona como instrutor específico do usuário para guiar o processo de geração de acordo com as necessidades do usuário. O instrutor é treinado usando aprendizado por reforço guiado pelo editor, aproveitando o feedback do modelo editor em grande escala para otimizar a geração de instruções. Resultados experimentais em dois conjuntos de dados de sumarização abstrativa demonstram a eficácia da nossa abordagem na geração de saídas que atendem melhor às expectativas dos usuários.

English

Tailoring outputs of large language models, such as ChatGPT, to specific user needs remains a challenge despite their impressive generation quality. In this paper, we propose a tri-agent generation pipeline consisting of a generator, an instructor, and an editor to enhance the customization of generated outputs. The generator produces an initial output, the user-specific instructor generates editing instructions, and the editor generates a revised output aligned with user preferences. The inference-only large language model (ChatGPT) serves as both the generator and the editor, while a smaller model acts as the user-specific instructor to guide the generation process toward user needs. The instructor is trained using editor-steered reinforcement learning, leveraging feedback from the large-scale editor model to optimize instruction generation. Experimental results on two abstractive summarization datasets demonstrate the effectiveness of our approach in generating outputs that better fulfill user expectations.

Instrutor de Edição Guiado por ChatGPT para Personalização de Sumarização Abstrata

ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization

Resumo

Support