Modification post-entraînement des grands modèles de langage pour une écriture créative diversifiée

papers.abstract

Les tâches de rédaction créative n'ayant pas de réponses uniques et correctes, les grands modèles de langage (LLMs) entraînés pour accomplir ces tâches devraient être capables de générer des sorties diverses et valides. Cependant, l'après-entraînement des LLMs se concentre souvent sur l'amélioration de la qualité de génération tout en négligeant la facilitation de la diversité des sorties. Par conséquent, dans la génération de textes créatifs, nous explorons des approches d'après-entraînement visant à promouvoir à la fois la diversité et la qualité des sorties. Notre idée centrale est d'intégrer la déviation -- le degré de différence entre un échantillon d'entraînement et tous les autres échantillons partageant le même prompt -- dans l'objectif d'entraînement afin de faciliter l'apprentissage à partir d'instances rares et de haute qualité. En appliquant notre approche à l'optimisation directe des préférences (DPO) et à l'optimisation des préférences par rapport aux cotes (ORPO), nous démontrons que nous pouvons promouvoir la diversité des sorties des modèles entraînés tout en minimisant la baisse de qualité. Notre meilleur modèle, doté de 8 milliards de paramètres, parvient à atteindre une diversité comparable à celle d'un ensemble de données créé par des humains, tout en offrant une qualité de sortie similaire aux meilleurs modèles à instruction que nous avons examinés, GPT-4o et DeepSeek-R1. Nous validons en outre nos approches par une évaluation humaine, une ablation et une comparaison avec une méthode existante de diversification, DivPO.

English

As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

Modification post-entraînement des grands modèles de langage pour une écriture créative diversifiée

Modifying Large Language Model Post-Training for Diverse Creative Writing

papers.abstract

Support