ChatPaper.aiChatPaper

Modificando Modelos de Linguagem de Grande Escala Pós-Treinamento para Escrita Criativa Diversificada

Modifying Large Language Model Post-Training for Diverse Creative Writing

March 21, 2025
Autores: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI

Resumo

Como tarefas de escrita criativa não possuem respostas corretas únicas, modelos de linguagem de grande escala (LLMs) treinados para realizar essas tarefas devem ser capazes de gerar saídas válidas e diversas. No entanto, o pós-treinamento de LLMs frequentemente se concentra em melhorar a qualidade da geração, mas negligencia a facilitação da diversidade das saídas. Portanto, na geração de escrita criativa, investigamos abordagens de pós-treinamento para promover tanto a diversidade quanto a qualidade das saídas. Nossa ideia central é incluir o desvio -- o grau de diferença entre uma amostra de treinamento e todas as outras amostras com o mesmo prompt -- no objetivo de treinamento para facilitar o aprendizado a partir de instâncias raras e de alta qualidade. Ao adotar nossa abordagem para otimização de preferência direta (DPO) e otimização de preferência por razão de chances (ORPO), demonstramos que podemos promover a diversidade das saídas dos modelos treinados enquanto minimizamos a redução da qualidade. Nosso melhor modelo com 8 bilhões de parâmetros conseguiu alcançar uma diversidade comparável a um conjunto de dados criado por humanos, mantendo uma qualidade de saída semelhante aos melhores modelos ajustados por instrução que examinamos, GPT-4o e DeepSeek-R1. Validamos ainda nossas abordagens com uma avaliação humana, uma análise de ablação e uma comparação com uma abordagem existente de diversificação, DivPO.
English
As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

Summary

AI-Generated Summary

PDF362March 24, 2025