Instructeur de rédition piloté par ChatGPT pour la personnalisation de la synthèse abstraite
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Auteurs: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Résumé
Adapter les sorties des grands modèles de langage, tels que ChatGPT, aux besoins spécifiques des utilisateurs reste un défi malgré leur qualité de génération impressionnante. Dans cet article, nous proposons un pipeline de génération à trois agents composé d'un générateur, d'un instructeur et d'un éditeur pour améliorer la personnalisation des sorties générées. Le générateur produit une sortie initiale, l'instructeur spécifique à l'utilisateur génère des instructions de modification, et l'éditeur génère une sortie révisée alignée sur les préférences de l'utilisateur. Le grand modèle de langage en mode inférence uniquement (ChatGPT) sert à la fois de générateur et d'éditeur, tandis qu'un modèle plus petit agit comme instructeur spécifique à l'utilisateur pour guider le processus de génération vers les besoins de l'utilisateur. L'instructeur est entraîné à l'aide d'un apprentissage par renforcement piloté par l'éditeur, exploitant les retours du modèle éditeur à grande échelle pour optimiser la génération d'instructions. Les résultats expérimentaux sur deux ensembles de données de résumé abstrait démontrent l'efficacité de notre approche pour générer des sorties qui répondent mieux aux attentes des utilisateurs.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.