Modificación de Modelos de Lenguaje de Gran Escala Post-Entrenamiento para Escritura Creativa Diversa

Resumen

Dado que las tareas de escritura creativa no tienen respuestas correctas únicas, los modelos de lenguaje de gran escala (LLMs) entrenados para realizar estas tareas deberían ser capaces de generar salidas válidas y diversas. Sin embargo, el post-entrenamiento de los LLMs a menudo se centra en mejorar la calidad de la generación, pero descuida facilitar la diversidad de las salidas. Por lo tanto, en la generación de escritura creativa, investigamos enfoques de post-entrenamiento para promover tanto la diversidad como la calidad de las salidas. Nuestra idea central es incluir la desviación —el grado de diferencia entre una muestra de entrenamiento y todas las demás muestras con el mismo prompt— en el objetivo de entrenamiento para facilitar el aprendizaje a partir de instancias raras y de alta calidad. Al adoptar nuestro enfoque en la optimización de preferencias directas (DPO) y la optimización de preferencias basada en la razón de probabilidades (ORPO), demostramos que podemos promover la diversidad de las salidas de los modelos entrenados mientras disminuimos mínimamente la calidad. Nuestro mejor modelo con 8B parámetros logró una diversidad comparable a la de un conjunto de datos creado por humanos, manteniendo una calidad de salida similar a los mejores modelos ajustados por instrucciones que examinamos, GPT-4o y DeepSeek-R1. Validamos adicionalmente nuestros enfoques con una evaluación humana, una ablación y una comparación con un enfoque de diversificación existente, DivPO.

English

As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

Modificación de Modelos de Lenguaje de Gran Escala Post-Entrenamiento para Escritura Creativa Diversa

Modifying Large Language Model Post-Training for Diverse Creative Writing

Resumen

Support