Évaluation de la Reconstruction d'Articles : Analyse de la Présentation et des Hallucinations dans les Articles Rédigés par l'IA

Résumé

Ce document présente le premier cadre d'évaluation systématique pour quantifier la qualité et les risques des articles rédigés par des agents de codage modernes. Bien que la rédaction automatisée d'articles par l'IA soit une préoccupation croissante, l'évaluation rigoureuse de la qualité et des risques potentiels de ces articles reste limitée, et une compréhension unifiée de leur fiabilité fait encore défaut. Nous introduisons Paper Reconstruction Evaluation (PaperRecon), un cadre d'évaluation dans lequel un aperçu (overview.md) est créé à partir d'un article existant, après quoi un agent génère un article complet sur la base de cet aperçu et de ressources supplémentaires minimales, le résultat étant ensuite comparé à l'article original. PaperRecon décompose l'évaluation des articles rédigés par l'IA en deux dimensions orthogonales, Présentation et Hallucination, où la Présentation est évaluée à l'aide d'une grille et l'Hallucination est évaluée via une évaluation agentique fondée sur la source de l'article original. Pour l'évaluation, nous introduisons PaperWrite-Bench, un benchmark de 51 articles issus de conférences prestigieuses dans divers domaines, publiés après 2025. Nos expériences révèlent un compromis clair : si ClaudeCode et Codex s'améliorent avec les avancées des modèles, ClaudeCode atteint une meilleure qualité de présentation au prix de plus de 10 hallucinations par article en moyenne, tandis que Codex produit moins d'hallucinations mais une qualité de présentation inférieure. Ce travail constitue une première étape vers l'établissement de cadres d'évaluation pour la rédaction automatisée d'articles par l'IA et l'amélioration de la compréhension de ses risques au sein de la communauté scientifique.

English

This paper introduces the first systematic evaluation framework for quantifying the quality and risks of papers written by modern coding agents. While AI-driven paper writing has become a growing concern, rigorous evaluation of the quality and potential risks of AI-written papers remains limited, and a unified understanding of their reliability is still lacking. We introduce Paper Reconstruction Evaluation (PaperRecon), an evaluation framework in which an overview (overview.md) is created from an existing paper, after which an agent generates a full paper based on the overview and minimal additional resources, and the result is subsequently compared against the original paper. PaperRecon disentangles the evaluation of the AI-written papers into two orthogonal dimensions, Presentation and Hallucination, where Presentation is evaluated using a rubric and Hallucination is assessed via agentic evaluation grounded in the original paper source. For evaluation, we introduce PaperWrite-Bench, a benchmark of 51 papers from top-tier venues across diverse domains published after 2025. Our experiments reveal a clear trade-off: while both ClaudeCode and Codex improve with model advances, ClaudeCode achieves higher presentation quality at the cost of more than 10 hallucinations per paper on average, whereas Codex produces fewer hallucinations but lower presentation quality. This work takes a first step toward establishing evaluation frameworks for AI-driven paper writing and improving the understanding of its risks within the research community.

Évaluation de la Reconstruction d'Articles : Analyse de la Présentation et des Hallucinations dans les Articles Rédigés par l'IA

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Résumé

Support