PatRe : Un benchmark de génération complète d'actions officielles et de répliques pour l'examen des brevets
PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination
May 5, 2026
Auteurs: Qiyao Wang, Xinyi Chen, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
cs.AI
Résumé
L'examen des brevets est un processus complexe et multi-étapes qui requiert à la fois une expertise technique et un raisonnement juridique, et qui est de plus en plus mis au défi par la croissance du volume des demandes. Les benchmarks antérieurs considèrent principalement l'examen des brevets comme une classification discriminative ou une extraction statique, ne parvenant pas à capturer sa nature intrinsèquement interactive et itérative, similaire au processus d'évaluation par les pairs et de réplique dans la publication académique. Dans cet article, nous présentons PatRe, le premier benchmark qui modélise le cycle de vie complet de l'examen des brevets, incluant la génération d'actions de l'Office et la réplique du demandeur. PatRe comprend 480 cas réels et prend en charge des configurations d'évaluation par oracle et par simulation de recherche. Notre benchmark reformule l'examen des brevets comme un processus dynamique et multi-tours de justification et de réponse. Des expériences approfondies sur divers LLM révèlent des insights critiques sur la performance des modèles, incluant les différences entre les modèles propriétaires et open source, ainsi que les asymétries de tâches entre l'analyse de l'examinateur et la réplique du côté du demandeur. Ces résultats mettent en lumière à la fois le potentiel et les limitations actuelles des LLM pour modéliser le raisonnement juridique complexe et réel ainsi que le jugement de nouveauté technique dans l'examen des brevets. Nous publions notre code et notre jeu de données pour faciliter les recherches futures sur la modélisation de l'examen des brevets.
English
Patent examination is a complex, multi-stage process requiring both technical expertise and legal reasoning, increasingly challenged by rising application volumes. Prior benchmarks predominantly view patent examination as discriminative classification or static extraction, failing to capture its inherently interactive and iterative nature, similar to the peer review and rebuttal process in academic publishing. In this paper, we introduce PatRe, the first benchmark that models the full patent examination lifecycle, including Office Action generation and applicant rebuttal. PatRe comprises 480 real-world cases and supports both oracle and retrieval-simulated evaluation settings. Our benchmark reframes patent examination as a dynamic, multi-turn process of justification and response. Extensive experiments across various LLMs reveal critical insights into model performance, including differences between proprietary and open-source models, as well as task asymmetries between examiner analysis and applicant-side rebuttal. These findings highlight both the potential and current limitations of LLMs in modeling complex, real-world legal reasoning and technical novelty judgment in patent examination. We release our code and dataset to facilitate future research on patent examination modeling.