ChatPaper.aiChatPaper

다양한 창작 글쓰기를 위한 대규모 언어 모델 사후 학습 수정

Modifying Large Language Model Post-Training for Diverse Creative Writing

March 21, 2025
저자: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
cs.AI

초록

창의적 글쓰기 작업은 단일한 정답이 존재하지 않기 때문에, 이러한 작업을 수행하도록 훈련된 대형 언어 모델(LLMs)은 다양한 유효한 출력을 생성할 수 있어야 합니다. 그러나 LLM의 사후 훈련은 주로 생성 품질을 개선하는 데 초점을 맞추는 반면, 출력 다양성을 촉진하는 데는 소홀히 하는 경향이 있습니다. 따라서 창의적 글쓰기 생성에서 우리는 출력 다양성과 품질을 모두 증진시키기 위한 사후 훈련 접근법을 연구합니다. 우리의 핵심 아이디어는 훈련 목표에 편차(deviation) -- 동일한 프롬프트를 가진 모든 다른 샘플들과의 차이 정도 --를 포함시켜 희귀한 고품질 인스턴스로부터 학습을 촉진하는 것입니다. 우리는 직접 선호 최적화(Direct Preference Optimization, DPO)와 승산비 선호 최적화(Odds Ratio Preference Optimization, ORPO)에 우리의 접근법을 적용함으로써, 훈련된 모델의 출력 다양성을 증진시키면서도 품질 저하를 최소화할 수 있음을 입증합니다. 우리의 8B 파라미터를 가진 최고 모델은 인간이 생성한 데이터셋과 동등한 수준의 다양성을 달성하면서도, 우리가 검토한 최고의 지시 튜닝 모델인 GPT-4o와 DeepSeek-R1과 유사한 출력 품질을 보였습니다. 우리는 추가적으로 인간 평가, 어블레이션(ablation), 그리고 기존의 다양화 접근법인 DivPO와의 비교를 통해 우리의 접근법을 검증합니다.
English
As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.

Summary

AI-Generated Summary

PDF362March 24, 2025