ChatGPT-gestuurde Bewerkingsinstructeur voor Aanpassing van Abstractieve Samenvatting
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Auteurs: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Samenvatting
Het afstemmen van de uitvoer van grote taalmodellen, zoals ChatGPT, op specifieke gebruikersbehoeften blijft een uitdaging ondanks hun indrukwekkende generatiekwaliteit. In dit artikel stellen we een tri-agent generatiepijplijn voor, bestaande uit een generator, een instructeur en een editor, om de aanpassing van gegenereerde uitvoer te verbeteren. De generator produceert een initiële uitvoer, de gebruikersspecifieke instructeur genereert bewerkingsinstructies, en de editor produceert een herziene uitvoer die is afgestemd op gebruikersvoorkeuren. Het inference-only grote taalmodel (ChatGPT) fungeert zowel als generator als editor, terwijl een kleiner model optreedt als de gebruikersspecifieke instructeur om het generatieproces te sturen in de richting van gebruikersbehoeften. De instructeur wordt getraind met editor-gestuurde reinforcement learning, waarbij feedback van het grootschalige editormodel wordt benut om de instructiegeneratie te optimaliseren. Experimentele resultaten op twee abstractieve samenvattingsdatasets tonen de effectiviteit van onze aanpak aan in het genereren van uitvoer die beter voldoet aan gebruikersverwachtingen.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.