ChatPaper.aiChatPaper

Aanpassen van grote taalmodel na training voor diverse creatieve schrijftoepassingen

Modifying Large Language Model Post-Training for Diverse Creative Writing

March 21, 2025
Auteurs: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI

Samenvatting

Omdat creatieve schrijftaken geen eenduidige correcte antwoorden hebben, zouden grote taalmmodellen (LLM's) die zijn getraind om deze taken uit te voeren, in staat moeten zijn om diverse geldige uitvoer te genereren. Echter richt post-training van LLM's zich vaak op het verbeteren van de generatiekwaliteit, maar wordt er weinig aandacht besteed aan het bevorderen van uitvoerdiversiteit. Daarom onderzoeken we in creatieve schrijftaalgeneratie post-trainingbenaderingen om zowel uitvoerdiversiteit als kwaliteit te bevorderen. Onze kernidee is om afwijking – de mate van verschil tussen een trainingsvoorbeeld en alle andere voorbeelden met dezelfde prompt – op te nemen in het trainingsdoel om het leren van zeldzame hoogwaardige instanties te vergemakkelijken. Door onze benadering toe te passen op direct preference optimization (DPO) en odds ratio preference optimization (ORPO), laten we zien dat we de uitvoerdiversiteit van getrainde modellen kunnen bevorderen terwijl de kwaliteit minimaal afneemt. Ons beste model met 8B parameters kon een vergelijkbare diversiteit bereiken als een door mensen gemaakte dataset, terwijl de uitvoerkwaliteit vergelijkbaar was met de best onderzochte instructie-getunede modellen, GPT-4o en DeepSeek-R1. We valideren onze benaderingen verder met een humane evaluatie, een ablatie en een vergelijking met een bestaande diversificatiebenadering, DivPO.
English
As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

Summary

AI-Generated Summary

PDF362March 24, 2025