DocReward: Модель оценки документов для структурирования и стилизации

Аннотация

Последние достижения в области агентных рабочих процессов позволили автоматизировать такие задачи, как создание профессиональных документов. Однако они в основном сосредоточены на текстовом качестве, пренебрегая визуальной структурой и стилем, которые имеют решающее значение для удобочитаемости и привлекательности. Этот пробел возникает главным образом из-за отсутствия подходящих моделей вознаграждения, которые могли бы направлять агентные рабочие процессы на создание документов с более сильной структурной и стилистической качественностью. Для решения этой проблемы мы предлагаем DocReward — модель вознаграждения для документов, которая оценивает документы на основе их структуры и стиля. Мы создали многодоменный набор данных DocPair, состоящий из 117 тысяч пар документов, охватывающих 32 домена и 267 типов документов, каждый из которых включает документ с высоким и низким уровнем профессионализма, имеющий идентичное содержание, но различающийся структурой и стилем. Это позволяет модели оценивать профессионализм комплексно и независимо от текстового качества. DocReward обучается с использованием функции потерь Брэдли-Терри для оценки документов, штрафуя предсказания, противоречащие аннотированному ранжированию. Для оценки производительности моделей вознаграждения мы создали тестовый набор данных, содержащий наборы документов, ранжированные высокообразованными экспертами. Примечательно, что DocReward превосходит GPT-4o и GPT-5 по точности на 30,6 и 19,4 процентных пункта соответственно, демонстрируя свое превосходство над базовыми моделями. В рамках внешней оценки генерации документов DocReward достигает значительно более высокой доли побед — 60,8%, по сравнению с 37,7% у GPT-5, что подтверждает его полезность в направлении генеративных агентов на создание документов, предпочитаемых людьми.

English

Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.

DocReward: Модель оценки документов для структурирования и стилизации

DocReward: A Document Reward Model for Structuring and Stylizing

Аннотация

Support