DocReward: Een Documentbeloningsmodel voor Structureren en Stileren
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
Auteurs: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
Samenvatting
Recente ontwikkelingen in agent-gebaseerde workflows hebben de automatisering van taken zoals het genereren van professionele documenten mogelijk gemaakt. Deze workflows richten zich echter voornamelijk op tekstuele kwaliteit, waarbij visuele structuur en stijl, die cruciaal zijn voor leesbaarheid en betrokkenheid, worden verwaarloosd. Deze kloof ontstaat vooral door het ontbreken van geschikte beloningsmodellen om agent-gebaseerde workflows te begeleiden bij het produceren van documenten met een betere structurele en stilistische kwaliteit. Om dit aan te pakken, stellen we DocReward voor, een documentbeloningsmodel dat documenten beoordeelt op basis van hun structuur en stijl. We hebben een multi-domein dataset DocPair samengesteld van 117K gepaarde documenten, die 32 domeinen en 267 documenttypen omvat, elk met een document van hoge en lage professionaliteit met identieke inhoud maar verschillende structuur en stijl. Hierdoor kan het model professionaliteit uitgebreid en op een tekstkwaliteit-onafhankelijke manier evalueren. DocReward wordt getraind met behulp van het Bradley-Terry verlies om documenten te scoren, waarbij voorspellingen die in tegenspraak zijn met de geannoteerde rangschikking worden bestraft. Om de prestaties van beloningsmodellen te beoordelen, hebben we een testdataset gemaakt met documentbundels die zijn gerangschikt door goed opgeleide menselijke beoordelaars. Opmerkelijk is dat DocReward GPT-4o en GPT-5 in nauwkeurigheid overtreft met respectievelijk 30,6 en 19,4 procentpunten, wat zijn superioriteit ten opzichte van de basislijnen aantoont. In een extrinsieke evaluatie van documentgeneratie behaalt DocReward een aanzienlijk hogere winratio van 60,8%, vergeleken met de winratio van 37,7% van GPT-5, wat het nut ervan aantoont bij het begeleiden van generatie-agents bij het produceren van door mensen geprefereerde documenten.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.