Aanpassen van grote taalmodel na training voor diverse creatieve schrijftoepassingen
Modifying Large Language Model Post-Training for Diverse Creative Writing
March 21, 2025
Auteurs: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI
Samenvatting
Omdat creatieve schrijftaken geen eenduidige correcte antwoorden hebben, zouden grote taalmmodellen (LLM's) die zijn getraind om deze taken uit te voeren, in staat moeten zijn om diverse geldige uitvoer te genereren. Echter richt post-training van LLM's zich vaak op het verbeteren van de generatiekwaliteit, maar wordt er weinig aandacht besteed aan het bevorderen van uitvoerdiversiteit. Daarom onderzoeken we in creatieve schrijftaalgeneratie post-trainingbenaderingen om zowel uitvoerdiversiteit als kwaliteit te bevorderen. Onze kernidee is om afwijking – de mate van verschil tussen een trainingsvoorbeeld en alle andere voorbeelden met dezelfde prompt – op te nemen in het trainingsdoel om het leren van zeldzame hoogwaardige instanties te vergemakkelijken. Door onze benadering toe te passen op direct preference optimization (DPO) en odds ratio preference optimization (ORPO), laten we zien dat we de uitvoerdiversiteit van getrainde modellen kunnen bevorderen terwijl de kwaliteit minimaal afneemt. Ons beste model met 8B parameters kon een vergelijkbare diversiteit bereiken als een door mensen gemaakte dataset, terwijl de uitvoerkwaliteit vergelijkbaar was met de best onderzochte instructie-getunede modellen, GPT-4o en DeepSeek-R1. We valideren onze benaderingen verder met een humane evaluatie, een ablatie en een vergelijking met een bestaande diversificatiebenadering, DivPO.
English
As creative writing tasks do not have singular correct answers, large
language models (LLMs) trained to perform these tasks should be able to
generate diverse valid outputs. However, LLM post-training often focuses on
improving generation quality but neglects to facilitate output diversity.
Hence, in creative writing generation, we investigate post-training approaches
to promote both output diversity and quality. Our core idea is to include
deviation -- the degree of difference between a training sample and all other
samples with the same prompt -- in the training objective to facilitate
learning from rare high-quality instances. By adopting our approach to direct
preference optimization (DPO) and odds ratio preference optimization (ORPO), we
demonstrate that we can promote the output diversity of trained models while
minimally decreasing quality. Our best model with 8B parameters could achieve
on-par diversity as a human-created dataset while having output quality similar
to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We
further validate our approaches with a human evaluation, an ablation, and a
comparison to an existing diversification approach, DivPO.Summary
AI-Generated Summary