DocReward: Модель оценки документов для структурирования и стилизации
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
Авторы: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
Аннотация
Последние достижения в области агентных рабочих процессов позволили автоматизировать такие задачи, как создание профессиональных документов. Однако они в основном сосредоточены на текстовом качестве, пренебрегая визуальной структурой и стилем, которые имеют решающее значение для удобочитаемости и привлекательности. Этот пробел возникает главным образом из-за отсутствия подходящих моделей вознаграждения, которые могли бы направлять агентные рабочие процессы на создание документов с более сильной структурной и стилистической качественностью. Для решения этой проблемы мы предлагаем DocReward — модель вознаграждения для документов, которая оценивает документы на основе их структуры и стиля. Мы создали многодоменный набор данных DocPair, состоящий из 117 тысяч пар документов, охватывающих 32 домена и 267 типов документов, каждый из которых включает документ с высоким и низким уровнем профессионализма, имеющий идентичное содержание, но различающийся структурой и стилем. Это позволяет модели оценивать профессионализм комплексно и независимо от текстового качества. DocReward обучается с использованием функции потерь Брэдли-Терри для оценки документов, штрафуя предсказания, противоречащие аннотированному ранжированию. Для оценки производительности моделей вознаграждения мы создали тестовый набор данных, содержащий наборы документов, ранжированные высокообразованными экспертами. Примечательно, что DocReward превосходит GPT-4o и GPT-5 по точности на 30,6 и 19,4 процентных пункта соответственно, демонстрируя свое превосходство над базовыми моделями. В рамках внешней оценки генерации документов DocReward достигает значительно более высокой доли побед — 60,8%, по сравнению с 37,7% у GPT-5, что подтверждает его полезность в направлении генеративных агентов на создание документов, предпочитаемых людьми.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.