DocReward: 문서 구조화 및 스타일링을 위한 문서 보상 모델
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
저자: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
초록
최근 에이전트 기반 워크플로우의 발전으로 전문 문서 생성과 같은 작업의 자동화가 가능해졌습니다. 그러나 이러한 접근 방식은 주로 텍스트 품질에 초점을 맞추고 있어, 가독성과 참여도를 결정짓는 시각적 구조와 스타일을 간과하고 있습니다. 이러한 격차는 주로 강력한 구조적 및 스타일적 품질을 가진 문서를 생성하도록 에이전트 워크플로우를 안내할 적절한 보상 모델의 부재에서 비롯됩니다. 이를 해결하기 위해, 우리는 문서의 구조와 스타일을 기반으로 문서를 평가하는 문서 보상 모델인 DocReward를 제안합니다. 우리는 32개 도메인과 267개 문서 유형을 포괄하는 117K개의 짝지어진 문서로 구성된 다중 도메인 데이터셋 DocPair를 구축했습니다. 각 문서 쌍은 동일한 내용을 담고 있지만 구조와 스타일이 다른 고품질 및 저품질 문서로 구성되어 있어, 텍스트 품질과 무관하게 전문성을 포괄적으로 평가할 수 있습니다. DocReward는 Bradley-Terry 손실 함수를 사용하여 문서를 점수화하고, 주석된 순위와 모순되는 예측에 대해 패널티를 부여하도록 학습됩니다. 보상 모델의 성능을 평가하기 위해, 우리는 고학력 인간 평가자에 의해 순위가 매겨진 문서 묶음으로 구성된 테스트 데이터셋을 생성했습니다. 특히, DocReward는 GPT-4o 및 GPT-5 대비 각각 30.6% 및 19.4% 포인트 더 높은 정확도를 보여주며, 기준 모델들을 능가하는 우수성을 입증했습니다. 문서 생성의 외부 평가에서 DocReward는 GPT-5의 37.7% 승률에 비해 60.8%의 상당히 높은 승률을 달성하며, 인간이 선호하는 문서를 생성하도록 생성 에이전트를 안내하는 데 있어 유용성을 입증했습니다.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.