Istruttore di Editing Guidato da ChatGPT per la Personalizzazione della Sintesi Astrattiva
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Autori: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Abstract
Adattare gli output dei grandi modelli linguistici, come ChatGPT, a specifiche esigenze degli utenti rimane una sfida nonostante la loro impressionante qualità di generazione. In questo articolo, proponiamo una pipeline di generazione tri-agente composta da un generatore, un istruttore e un editor per migliorare la personalizzazione degli output generati. Il generatore produce un output iniziale, l'istruttore specifico per l'utente genera istruzioni di modifica e l'editor genera un output rivisto allineato alle preferenze dell'utente. Il grande modello linguistico utilizzato solo per l'inferenza (ChatGPT) funge sia da generatore che da editor, mentre un modello più piccolo agisce come istruttore specifico per l'utente per guidare il processo di generazione verso le esigenze dell'utente. L'istruttore viene addestrato utilizzando il reinforcement learning guidato dall'editor, sfruttando il feedback del modello editor su larga scala per ottimizzare la generazione delle istruzioni. I risultati sperimentali su due dataset di summarization astrattivo dimostrano l'efficacia del nostro approccio nel generare output che soddisfano meglio le aspettative degli utenti.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.