Instructeur de rédition piloté par ChatGPT pour la personnalisation de la synthèse abstraite

Résumé

Adapter les sorties des grands modèles de langage, tels que ChatGPT, aux besoins spécifiques des utilisateurs reste un défi malgré leur qualité de génération impressionnante. Dans cet article, nous proposons un pipeline de génération à trois agents composé d'un générateur, d'un instructeur et d'un éditeur pour améliorer la personnalisation des sorties générées. Le générateur produit une sortie initiale, l'instructeur spécifique à l'utilisateur génère des instructions de modification, et l'éditeur génère une sortie révisée alignée sur les préférences de l'utilisateur. Le grand modèle de langage en mode inférence uniquement (ChatGPT) sert à la fois de générateur et d'éditeur, tandis qu'un modèle plus petit agit comme instructeur spécifique à l'utilisateur pour guider le processus de génération vers les besoins de l'utilisateur. L'instructeur est entraîné à l'aide d'un apprentissage par renforcement piloté par l'éditeur, exploitant les retours du modèle éditeur à grande échelle pour optimiser la génération d'instructions. Les résultats expérimentaux sur deux ensembles de données de résumé abstrait démontrent l'efficacité de notre approche pour générer des sorties qui répondent mieux aux attentes des utilisateurs.

English

Tailoring outputs of large language models, such as ChatGPT, to specific user needs remains a challenge despite their impressive generation quality. In this paper, we propose a tri-agent generation pipeline consisting of a generator, an instructor, and an editor to enhance the customization of generated outputs. The generator produces an initial output, the user-specific instructor generates editing instructions, and the editor generates a revised output aligned with user preferences. The inference-only large language model (ChatGPT) serves as both the generator and the editor, while a smaller model acts as the user-specific instructor to guide the generation process toward user needs. The instructor is trained using editor-steered reinforcement learning, leveraging feedback from the large-scale editor model to optimize instruction generation. Experimental results on two abstractive summarization datasets demonstrate the effectiveness of our approach in generating outputs that better fulfill user expectations.

Instructeur de rédition piloté par ChatGPT pour la personnalisation de la synthèse abstraite

ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization

Résumé

Support