Modificación de Modelos de Lenguaje de Gran Escala Post-Entrenamiento para Escritura Creativa Diversa
Modifying Large Language Model Post-Training for Diverse Creative Writing
March 21, 2025
Autores: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI
Resumen
Dado que las tareas de escritura creativa no tienen respuestas correctas únicas, los modelos de lenguaje de gran escala (LLMs) entrenados para realizar estas tareas deberían ser capaces de generar salidas válidas y diversas. Sin embargo, el post-entrenamiento de los LLMs a menudo se centra en mejorar la calidad de la generación, pero descuida facilitar la diversidad de las salidas. Por lo tanto, en la generación de escritura creativa, investigamos enfoques de post-entrenamiento para promover tanto la diversidad como la calidad de las salidas. Nuestra idea central es incluir la desviación —el grado de diferencia entre una muestra de entrenamiento y todas las demás muestras con el mismo prompt— en el objetivo de entrenamiento para facilitar el aprendizaje a partir de instancias raras y de alta calidad. Al adoptar nuestro enfoque en la optimización de preferencias directas (DPO) y la optimización de preferencias basada en la razón de probabilidades (ORPO), demostramos que podemos promover la diversidad de las salidas de los modelos entrenados mientras disminuimos mínimamente la calidad. Nuestro mejor modelo con 8B parámetros logró una diversidad comparable a la de un conjunto de datos creado por humanos, manteniendo una calidad de salida similar a los mejores modelos ajustados por instrucciones que examinamos, GPT-4o y DeepSeek-R1. Validamos adicionalmente nuestros enfoques con una evaluación humana, una ablación y una comparación con un enfoque de diversificación existente, DivPO.
English
As creative writing tasks do not have singular correct answers, large
language models (LLMs) trained to perform these tasks should be able to
generate diverse valid outputs. However, LLM post-training often focuses on
improving generation quality but neglects to facilitate output diversity.
Hence, in creative writing generation, we investigate post-training approaches
to promote both output diversity and quality. Our core idea is to include
deviation -- the degree of difference between a training sample and all other
samples with the same prompt -- in the training objective to facilitate
learning from rare high-quality instances. By adopting our approach to direct
preference optimization (DPO) and odds ratio preference optimization (ORPO), we
demonstrate that we can promote the output diversity of trained models while
minimally decreasing quality. Our best model with 8B parameters could achieve
on-par diversity as a human-created dataset while having output quality similar
to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We
further validate our approaches with a human evaluation, an ablation, and a
comparison to an existing diversification approach, DivPO.Summary
AI-Generated Summary