Instructor de Edición Guiada por ChatGPT para la Personalización de la Resumen Abstractivo
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization
May 4, 2023
Autores: Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He
cs.AI
Resumen
Adaptar las salidas de modelos de lenguaje de gran escala, como ChatGPT, a las necesidades específicas de los usuarios sigue siendo un desafío a pesar de su impresionante calidad de generación. En este artículo, proponemos una canalización de generación tri-agente compuesta por un generador, un instructor y un editor para mejorar la personalización de las salidas generadas. El generador produce una salida inicial, el instructor específico del usuario genera instrucciones de edición, y el editor genera una salida revisada alineada con las preferencias del usuario. El modelo de lenguaje de gran escala basado únicamente en inferencia (ChatGPT) actúa tanto como generador como editor, mientras que un modelo más pequeño funciona como instructor específico del usuario para guiar el proceso de generación hacia las necesidades del usuario. El instructor se entrena utilizando aprendizaje por refuerzo guiado por el editor, aprovechando la retroalimentación del modelo editor a gran escala para optimizar la generación de instrucciones. Los resultados experimentales en dos conjuntos de datos de resumen abstractivo demuestran la efectividad de nuestro enfoque para generar salidas que cumplen mejor con las expectativas del usuario.
English
Tailoring outputs of large language models, such as ChatGPT, to specific user
needs remains a challenge despite their impressive generation quality. In this
paper, we propose a tri-agent generation pipeline consisting of a generator, an
instructor, and an editor to enhance the customization of generated outputs.
The generator produces an initial output, the user-specific instructor
generates editing instructions, and the editor generates a revised output
aligned with user preferences. The inference-only large language model
(ChatGPT) serves as both the generator and the editor, while a smaller model
acts as the user-specific instructor to guide the generation process toward
user needs. The instructor is trained using editor-steered reinforcement
learning, leveraging feedback from the large-scale editor model to optimize
instruction generation. Experimental results on two abstractive summarization
datasets demonstrate the effectiveness of our approach in generating outputs
that better fulfill user expectations.