ChatGPT-gesteuerter Bearbeitungsleiter zur Anpassung der abstraktiven Zusammenfassung
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Autoren: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Zusammenfassung
Die Anpassung der Ausgaben großer Sprachmodelle wie ChatGPT an spezifische Benutzerbedürfnisse bleibt trotz ihrer beeindruckenden Generierungsqualität eine Herausforderung. In diesem Artikel schlagen wir eine Tri-Agenten-Generierungspipeline vor, die aus einem Generator, einem Instruktor und einem Editor besteht, um die Anpassung der generierten Ausgaben zu verbessern. Der Generator erzeugt eine erste Ausgabe, der benutzerspezifische Instruktor generiert Bearbeitungsanweisungen, und der Editor erstellt eine überarbeitete Ausgabe, die den Benutzerpräferenzen entspricht. Das inferenzbasierte große Sprachmodell (ChatGPT) fungiert sowohl als Generator als auch als Editor, während ein kleineres Modell als benutzerspezifischer Instruktor dient, um den Generierungsprozess an die Benutzerbedürfnisse anzupassen. Der Instruktor wird mittels editorgesteuertem Reinforcement Learning trainiert, wobei Feedback vom großskaligen Editor-Modell genutzt wird, um die Anweisungsgenerierung zu optimieren. Experimentelle Ergebnisse auf zwei abstraktiven Zusammenfassungsdatensätzen demonstrieren die Effektivität unseres Ansatzes bei der Erzeugung von Ausgaben, die die Erwartungen der Benutzer besser erfüllen.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.