ChatPaper.aiChatPaper

DocReward: Um Modelo de Recompensa de Documentos para Estruturação e Estilização

DocReward: A Document Reward Model for Structuring and Stylizing

October 13, 2025
Autores: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei
cs.AI

Resumo

Os avanços recentes em fluxos de trabalho agentes têm permitido a automação de tarefas como a geração de documentos profissionais. No entanto, eles se concentram principalmente na qualidade textual, negligenciando a estrutura e o estilo visual, que são cruciais para a legibilidade e o engajamento. Essa lacuna surge principalmente da ausência de modelos de recompensa adequados para orientar os fluxos de trabalho agentes na produção de documentos com maior qualidade estrutural e estilística. Para resolver isso, propomos o DocReward, um modelo de recompensa de documentos que avalia documentos com base em sua estrutura e estilo. Construímos um conjunto de dados multi-domínio, o DocPair, com 117K pares de documentos, abrangendo 32 domínios e 267 tipos de documentos, cada um incluindo um documento de alta e baixa profissionalidade com conteúdo idêntico, mas com estrutura e estilo diferentes. Isso permite que o modelo avalie a profissionalidade de forma abrangente e de maneira independente da qualidade textual. O DocReward é treinado usando a função de perda de Bradley-Terry para pontuar documentos, penalizando previsões que contradizem a classificação anotada. Para avaliar o desempenho dos modelos de recompensa, criamos um conjunto de dados de teste contendo pacotes de documentos classificados por avaliadores humanos bem-educados. Notavelmente, o DocReward supera o GPT-4o e o GPT-5 em precisão por 30,6 e 19,4 pontos percentuais, respectivamente, demonstrando sua superioridade em relação às linhas de base. Em uma avaliação extrínseca de geração de documentos, o DocReward alcança uma taxa de vitória significativamente maior de 60,8%, em comparação com a taxa de vitória de 37,7% do GPT-5, demonstrando sua utilidade em orientar agentes de geração na produção de documentos preferidos por humanos.
English
Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.
PDF263October 14, 2025