大規模言語モデルの訓練後修正による多様な創造的ライティング
Modifying Large Language Model Post-Training for Diverse Creative Writing
March 21, 2025
著者: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI
要旨
創造的な文章作成タスクには唯一の正解が存在しないため、これらのタスクを実行するように訓練された大規模言語モデル(LLM)は、多様な有効な出力を生成できるべきです。しかし、LLMのポストトレーニングでは、生成品質の向上に重点が置かれる一方で、出力の多様性を促進することがしばしば見過ごされています。そこで、創造的な文章生成において、出力の多様性と品質の両方を促進するポストトレーニング手法を調査します。私たちの核心的なアイデアは、トレーニングサンプルと同じプロンプトを持つ他のすべてのサンプルとの差異の度合い(deviation)をトレーニング目的に含めることで、稀な高品質のインスタンスから学習を促進することです。このアプローチを直接選好最適化(DPO)とオッズ比選好最適化(ORPO)に適用することで、訓練されたモデルの出力多様性を促進しつつ、品質の低下を最小限に抑えることができることを実証します。8Bパラメータを持つ私たちの最良のモデルは、人間が作成したデータセットと同等の多様性を達成しつつ、調査した最良の指示チューニングモデルであるGPT-4oとDeepSeek-R1と同様の出力品質を実現しました。さらに、人間による評価、アブレーション、および既存の多様化手法であるDivPOとの比較を通じて、私たちのアプローチを検証します。
English
As creative writing tasks do not have singular correct answers, large
language models (LLMs) trained to perform these tasks should be able to
generate diverse valid outputs. However, LLM post-training often focuses on
improving generation quality but neglects to facilitate output diversity.
Hence, in creative writing generation, we investigate post-training approaches
to promote both output diversity and quality. Our core idea is to include
deviation -- the degree of difference between a training sample and all other
samples with the same prompt -- in the training objective to facilitate
learning from rare high-quality instances. By adopting our approach to direct
preference optimization (DPO) and odds ratio preference optimization (ORPO), we
demonstrate that we can promote the output diversity of trained models while
minimally decreasing quality. Our best model with 8B parameters could achieve
on-par diversity as a human-created dataset while having output quality similar
to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We
further validate our approaches with a human evaluation, an ablation, and a
comparison to an existing diversification approach, DivPO.Summary
AI-Generated Summary