Modification post-entraînement des grands modèles de langage pour une écriture créative diversifiée
Modifying Large Language Model Post-Training for Diverse Creative Writing
March 21, 2025
Auteurs: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI
Résumé
Les tâches de rédaction créative n'ayant pas de réponses uniques et correctes, les grands modèles de langage (LLMs) entraînés pour accomplir ces tâches devraient être capables de générer des sorties diverses et valides. Cependant, l'après-entraînement des LLMs se concentre souvent sur l'amélioration de la qualité de génération tout en négligeant la facilitation de la diversité des sorties. Par conséquent, dans la génération de textes créatifs, nous explorons des approches d'après-entraînement visant à promouvoir à la fois la diversité et la qualité des sorties. Notre idée centrale est d'intégrer la déviation -- le degré de différence entre un échantillon d'entraînement et tous les autres échantillons partageant le même prompt -- dans l'objectif d'entraînement afin de faciliter l'apprentissage à partir d'instances rares et de haute qualité. En appliquant notre approche à l'optimisation directe des préférences (DPO) et à l'optimisation des préférences par rapport aux cotes (ORPO), nous démontrons que nous pouvons promouvoir la diversité des sorties des modèles entraînés tout en minimisant la baisse de qualité. Notre meilleur modèle, doté de 8 milliards de paramètres, parvient à atteindre une diversité comparable à celle d'un ensemble de données créé par des humains, tout en offrant une qualité de sortie similaire aux meilleurs modèles à instruction que nous avons examinés, GPT-4o et DeepSeek-R1. Nous validons en outre nos approches par une évaluation humaine, une ablation et une comparaison avec une méthode existante de diversification, DivPO.
English
As creative writing tasks do not have singular correct answers, large
language models (LLMs) trained to perform these tasks should be able to
generate diverse valid outputs. However, LLM post-training often focuses on
improving generation quality but neglects to facilitate output diversity.
Hence, in creative writing generation, we investigate post-training approaches
to promote both output diversity and quality. Our core idea is to include
deviation -- the degree of difference between a training sample and all other
samples with the same prompt -- in the training objective to facilitate
learning from rare high-quality instances. By adopting our approach to direct
preference optimization (DPO) and odds ratio preference optimization (ORPO), we
demonstrate that we can promote the output diversity of trained models while
minimally decreasing quality. Our best model with 8B parameters could achieve
on-par diversity as a human-created dataset while having output quality similar
to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We
further validate our approaches with a human evaluation, an ablation, and a
comparison to an existing diversification approach, DivPO.Summary
AI-Generated Summary