DocReward: Ein Dokument-Belohnungsmodell zur Strukturierung und Stilisierung
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
papers.authors: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
papers.abstract
Jüngste Fortschritte in agentenbasierten Workflows haben die Automatisierung von Aufgaben wie der professionellen Dokumentenerstellung ermöglicht. Allerdings konzentrieren sie sich hauptsächlich auf die textuelle Qualität und vernachlässigen visuelle Struktur und Stil, die für Lesbarkeit und Engagement entscheidend sind. Diese Lücke entsteht vor allem durch das Fehlen geeigneter Belohnungsmodelle, um agentenbasierte Workflows zur Erstellung von Dokumenten mit stärkerer struktureller und stilistischer Qualität zu führen. Um dies zu beheben, schlagen wir DocReward vor, ein Dokumenten-Belohnungsmodell, das Dokumente basierend auf ihrer Struktur und ihrem Stil bewertet. Wir erstellen einen multidisziplinären Datensatz DocPair mit 117.000 gepaarten Dokumenten, die 32 Domänen und 267 Dokumenttypen abdecken, wobei jedes ein hochprofessionelles und ein weniger professionelles Dokument mit identischem Inhalt, aber unterschiedlicher Struktur und Stil enthält. Dies ermöglicht es dem Modell, Professionalität umfassend und in einer textqualitätsunabhängigen Weise zu bewerten. DocReward wird mit dem Bradley-Terry-Verlust trainiert, um Dokumente zu bewerten und Vorhersagen zu bestrafen, die der annotierten Rangfolge widersprechen. Um die Leistung von Belohnungsmodellen zu bewerten, erstellen wir einen Testdatensatz, der Dokumentenbündel enthält, die von gut ausgebildeten menschlichen Bewertern bewertet wurden. Bemerkenswerterweise übertrifft DocReward GPT-4o und GPT-5 in der Genauigkeit um 30,6 bzw. 19,4 Prozentpunkte und demonstriert damit seine Überlegenheit gegenüber den Baselines. In einer extrinsischen Bewertung der Dokumentenerstellung erreicht DocReward eine signifikant höhere Gewinnrate von 60,8 % im Vergleich zu GPT-5s Gewinnrate von 37,7 %, was seinen Nutzen bei der Führung von Generierungsagenten zur Erstellung von menschlich bevorzugten Dokumenten unterstreicht.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.