DocReward: Een Documentbeloningsmodel voor Structureren en Stileren

Samenvatting

Recente ontwikkelingen in agent-gebaseerde workflows hebben de automatisering van taken zoals het genereren van professionele documenten mogelijk gemaakt. Deze workflows richten zich echter voornamelijk op tekstuele kwaliteit, waarbij visuele structuur en stijl, die cruciaal zijn voor leesbaarheid en betrokkenheid, worden verwaarloosd. Deze kloof ontstaat vooral door het ontbreken van geschikte beloningsmodellen om agent-gebaseerde workflows te begeleiden bij het produceren van documenten met een betere structurele en stilistische kwaliteit. Om dit aan te pakken, stellen we DocReward voor, een documentbeloningsmodel dat documenten beoordeelt op basis van hun structuur en stijl. We hebben een multi-domein dataset DocPair samengesteld van 117K gepaarde documenten, die 32 domeinen en 267 documenttypen omvat, elk met een document van hoge en lage professionaliteit met identieke inhoud maar verschillende structuur en stijl. Hierdoor kan het model professionaliteit uitgebreid en op een tekstkwaliteit-onafhankelijke manier evalueren. DocReward wordt getraind met behulp van het Bradley-Terry verlies om documenten te scoren, waarbij voorspellingen die in tegenspraak zijn met de geannoteerde rangschikking worden bestraft. Om de prestaties van beloningsmodellen te beoordelen, hebben we een testdataset gemaakt met documentbundels die zijn gerangschikt door goed opgeleide menselijke beoordelaars. Opmerkelijk is dat DocReward GPT-4o en GPT-5 in nauwkeurigheid overtreft met respectievelijk 30,6 en 19,4 procentpunten, wat zijn superioriteit ten opzichte van de basislijnen aantoont. In een extrinsieke evaluatie van documentgeneratie behaalt DocReward een aanzienlijk hogere winratio van 60,8%, vergeleken met de winratio van 37,7% van GPT-5, wat het nut ervan aantoont bij het begeleiden van generatie-agents bij het produceren van door mensen geprefereerde documenten.

English

Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.

DocReward: Een Documentbeloningsmodel voor Structureren en Stileren

DocReward: A Document Reward Model for Structuring and Stylizing

Samenvatting

Support