DocReward: Un Modello di Ricompensa per Documenti per Strutturare e Stilizzare

Abstract

I recenti progressi nei flussi di lavoro agentici hanno reso possibile l'automazione di compiti come la generazione di documenti professionali. Tuttavia, si concentrano principalmente sulla qualità testuale, trascurando la struttura e lo stile visivo, che sono cruciali per la leggibilità e l'engagement. Questa lacuna deriva principalmente dall'assenza di modelli di ricompensa adatti a guidare i flussi di lavoro agentici verso la produzione di documenti con una qualità strutturale e stilistica più forte. Per affrontare questo problema, proponiamo DocReward, un modello di ricompensa per documenti che valuta i documenti in base alla loro struttura e stile. Costruiamo un dataset multi-dominio DocPair di 117K documenti accoppiati, che copre 32 domini e 267 tipi di documenti, ciascuno comprendente un documento ad alta e bassa professionalità con contenuto identico ma struttura e stile diversi. Ciò consente al modello di valutare la professionalità in modo completo e indipendente dalla qualità testuale. DocReward viene addestrato utilizzando la perdita di Bradley-Terry per assegnare punteggi ai documenti, penalizzando le previsioni che contraddicono la classifica annotata. Per valutare le prestazioni dei modelli di ricompensa, creiamo un dataset di test contenente gruppi di documenti classificati da valutatori umani altamente istruiti. In particolare, DocReward supera GPT-4o e GPT-5 in accuratezza rispettivamente di 30,6 e 19,4 punti percentuali, dimostrando la sua superiorità rispetto ai baseline. In una valutazione estrinseca della generazione di documenti, DocReward raggiunge un tasso di vittoria significativamente più alto del 60,8%, rispetto al 37,7% di GPT-5, dimostrando la sua utilità nel guidare gli agenti di generazione verso la produzione di documenti preferiti dagli esseri umani.

English

Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.

DocReward: Un Modello di Ricompensa per Documenti per Strutturare e Stilizzare

DocReward: A Document Reward Model for Structuring and Stylizing

Abstract

Support