SuperWriter: 대규모 언어 모델 기반의 반성 주도 장문 생성
SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models
June 4, 2025
저자: Yuhao Wu, Yushi Bai, Zhiqiang Hu, Juanzi Li, Roy Ka-Wei Lee
cs.AI
초록
장문 텍스트 생성은 대규모 언어 모델(LLM)에게 여전히 중요한 과제로, 특히 일관성 유지, 논리적 일관성 보장, 그리고 시퀀스 길이가 증가함에 따라 텍스트 품질을 유지하는 데 어려움이 있습니다. 이러한 한계를 해결하기 위해, 우리는 장문 텍스트 생성의 품질과 일관성을 향상시키기 위해 설계된 에이전트 기반 프레임워크인 SuperWriter-Agent를 제안합니다. SuperWriter-Agent는 생성 파이프라인에 명시적인 구조화된 사고 과정을 계획 및 개선 단계로 도입하여, 모델이 전문 작가와 유사한 더 신중하고 인지적으로 근거 있는 프로세스를 따르도록 유도합니다. 이 프레임워크를 기반으로, 우리는 7B 규모의 SuperWriter-LM을 학습시키기 위한 지도 학습 미세 조정 데이터셋을 구축합니다. 또한, 최종 품질 평가를 전파하고 각 생성 단계를 최적화하기 위해 몬테카를로 트리 탐색(MCTS)을 사용하는 계층적 직접 선호 최적화(DPO) 절차를 개발합니다. 다양한 벤치마크에서의 실험 결과는 SuperWriter-LM이 자동 평가와 인간 평가 모두에서 더 큰 규모의 기준 모델을 능가하는 최첨단 성능을 달성함을 보여줍니다. 더불어, 포괄적인 절제 연구는 계층적 DPO의 효과를 입증하고, 구조화된 사고 단계를 통합하는 것이 장문 텍스트 생성의 품질을 향상시키는 데 가치가 있음을 강조합니다.
English
Long-form text generation remains a significant challenge for large language
models (LLMs), particularly in maintaining coherence, ensuring logical
consistency, and preserving text quality as sequence length increases. To
address these limitations, we propose SuperWriter-Agent, an agent-based
framework designed to enhance the quality and consistency of long-form text
generation. SuperWriter-Agent introduces explicit structured thinking-through
planning and refinement stages into the generation pipeline, guiding the model
to follow a more deliberate and cognitively grounded process akin to that of a
professional writer. Based on this framework, we construct a supervised
fine-tuning dataset to train a 7B SuperWriter-LM. We further develop a
hierarchical Direct Preference Optimization (DPO) procedure that uses Monte
Carlo Tree Search (MCTS) to propagate final quality assessments and optimize
each generation step accordingly. Empirical results across diverse benchmarks
demonstrate that SuperWriter-LM achieves state-of-the-art performance,
surpassing even larger-scale baseline models in both automatic evaluation and
human evaluation. Furthermore, comprehensive ablation studies demonstrate the
effectiveness of hierarchical DPO and underscore the value of incorporating
structured thinking steps to improve the quality of long-form text generation.