DocReward: Un Modello di Ricompensa per Documenti per Strutturare e Stilizzare
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
Autori: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
Abstract
I recenti progressi nei flussi di lavoro agentici hanno reso possibile l'automazione di compiti come la generazione di documenti professionali. Tuttavia, si concentrano principalmente sulla qualità testuale, trascurando la struttura e lo stile visivo, che sono cruciali per la leggibilità e l'engagement. Questa lacuna deriva principalmente dall'assenza di modelli di ricompensa adatti a guidare i flussi di lavoro agentici verso la produzione di documenti con una qualità strutturale e stilistica più forte. Per affrontare questo problema, proponiamo DocReward, un modello di ricompensa per documenti che valuta i documenti in base alla loro struttura e stile. Costruiamo un dataset multi-dominio DocPair di 117K documenti accoppiati, che copre 32 domini e 267 tipi di documenti, ciascuno comprendente un documento ad alta e bassa professionalità con contenuto identico ma struttura e stile diversi. Ciò consente al modello di valutare la professionalità in modo completo e indipendente dalla qualità testuale. DocReward viene addestrato utilizzando la perdita di Bradley-Terry per assegnare punteggi ai documenti, penalizzando le previsioni che contraddicono la classifica annotata. Per valutare le prestazioni dei modelli di ricompensa, creiamo un dataset di test contenente gruppi di documenti classificati da valutatori umani altamente istruiti. In particolare, DocReward supera GPT-4o e GPT-5 in accuratezza rispettivamente di 30,6 e 19,4 punti percentuali, dimostrando la sua superiorità rispetto ai baseline. In una valutazione estrinseca della generazione di documenti, DocReward raggiunge un tasso di vittoria significativamente più alto del 60,8%, rispetto al 37,7% di GPT-5, dimostrando la sua utilità nel guidare gli agenti di generazione verso la produzione di documenti preferiti dagli esseri umani.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.