ChatPaper.aiChatPaper

DocReward: ドキュメントの構造化とスタイリングのための報酬モデル

DocReward: A Document Reward Model for Structuring and Stylizing

October 13, 2025
著者: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI

要旨

エージェント型ワークフローの最近の進展により、専門的な文書生成などのタスクの自動化が可能となった。しかし、これらの手法は主にテキストの品質に焦点を当てており、読みやすさや関心を引くために重要な視覚的な構造やスタイルを軽視している。このギャップは、構造的およびスタイル的な品質の高い文書を生成するための適切な報酬モデルの欠如に起因している。この問題に対処するため、我々は文書の構造とスタイルに基づいて評価を行う文書報酬モデル「DocReward」を提案する。我々は、32のドメインと267の文書タイプをカバーする117Kのペア文書からなるマルチドメインデータセット「DocPair」を構築した。各ペアは、同じ内容を持つが構造とスタイルが異なる高プロフェッショナル度と低プロフェッショナル度の文書を含んでおり、これによりモデルはテキスト品質に依存せずにプロフェッショナル度を包括的に評価できる。DocRewardは、Bradley-Terry損失を用いて文書をスコア付けし、注釈付けされたランキングに矛盾する予測をペナルティすることで訓練される。報酬モデルの性能を評価するため、教育を受けた人間の評価者によってランク付けされた文書バンドルを含むテストデータセットを作成した。注目すべきは、DocRewardがGPT-4oおよびGPT-5をそれぞれ30.6および19.4パーセンテージポイント上回る精度を示し、ベースラインを凌駕することを実証した点である。文書生成の外在的評価において、DocRewardはGPT-5の37.7%の勝率に対して60.8%の大幅に高い勝率を達成し、人間が好む文書を生成するための生成エージェントのガイドとしての有用性を実証した。
English
Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.
PDF263October 14, 2025