DocReward: Um Modelo de Recompensa de Documentos para Estruturação e Estilização
DocReward: A Document Reward Model for Structuring and Stylizing
October 13, 2025
Autores: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI
Resumo
Os avanços recentes em fluxos de trabalho agentes têm permitido a automação de tarefas como a geração de documentos profissionais. No entanto, eles se concentram principalmente na qualidade textual, negligenciando a estrutura e o estilo visual, que são cruciais para a legibilidade e o engajamento. Essa lacuna surge principalmente da ausência de modelos de recompensa adequados para orientar os fluxos de trabalho agentes na produção de documentos com maior qualidade estrutural e estilística. Para resolver isso, propomos o DocReward, um modelo de recompensa de documentos que avalia documentos com base em sua estrutura e estilo. Construímos um conjunto de dados multi-domínio, o DocPair, com 117K pares de documentos, abrangendo 32 domínios e 267 tipos de documentos, cada um incluindo um documento de alta e baixa profissionalidade com conteúdo idêntico, mas com estrutura e estilo diferentes. Isso permite que o modelo avalie a profissionalidade de forma abrangente e de maneira independente da qualidade textual. O DocReward é treinado usando a função de perda de Bradley-Terry para pontuar documentos, penalizando previsões que contradizem a classificação anotada. Para avaliar o desempenho dos modelos de recompensa, criamos um conjunto de dados de teste contendo pacotes de documentos classificados por avaliadores humanos bem-educados. Notavelmente, o DocReward supera o GPT-4o e o GPT-5 em precisão por 30,6 e 19,4 pontos percentuais, respectivamente, demonstrando sua superioridade em relação às linhas de base. Em uma avaliação extrínseca de geração de documentos, o DocReward alcança uma taxa de vitória significativamente maior de 60,8%, em comparação com a taxa de vitória de 37,7% do GPT-5, demonstrando sua utilidade em orientar agentes de geração na produção de documentos preferidos por humanos.
English
Recent advances in agentic workflows have enabled the automation of tasks
such as professional document generation. However, they primarily focus on
textual quality, neglecting visual structure and style, which are crucial for
readability and engagement. This gap arises mainly from the absence of suitable
reward models to guide agentic workflows toward producing documents with
stronger structural and stylistic quality. To address this, we propose
DocReward, a document reward model that evaluates documents based on their
structure and style. We construct a multi-domain dataset DocPair of 117K paired
documents, covering 32 domains and 267 document types, each including a high-
and low-professionalism document with identical content but different structure
and style. This enables the model to evaluate professionalism comprehensively,
and in a textual-quality-agnostic way. DocReward is trained using the
Bradley-Terry loss to score documents, penalizing predictions that contradict
the annotated ranking. To assess the performance of reward models, we create a
test dataset containing document bundles ranked by well-educated human
evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6
and 19.4 percentage points, respectively, demonstrating its superiority over
baselines. In an extrinsic evaluation of document generation, DocReward
achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7%
win rate, demonstrating its utility in guiding generation agents toward
producing human-preferred documents.