PatRe: Ein umfassender Benchmark für die Erstellung von Einwänden und Erwiderungen im Patentprüfungsverfahren
PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination
May 5, 2026
Autoren: Qiyao Wang, Xinyi Chen, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
cs.AI
Zusammenfassung
Die Patentprüfung ist ein komplexer, mehrstufiger Prozess, der sowohl technisches Fachwissen als auch juristische Argumentation erfordert und zunehmend durch steigende Anmeldezahlen herausgefordert wird. Bisherige Benchmarks betrachten die Patentprüfung überwiegend als diskriminative Klassifikation oder statische Extraktion und erfassen nicht ihre inhärent interaktive und iterative Natur, die dem Begutachtungs- und Widerlegungsprozess in der wissenschaftlichen Publikation ähnelt. In diesem Artikel stellen wir PatRe vor, den ersten Benchmark, der den gesamten Lebenszyklus der Patentprüfung modelliert, einschließlich der Erstellung von Prüfbescheiden und des Einspruchs des Anmelders. PatRe umfasst 480 Fälle aus der Praxis und unterstützt sowohl Oracle- als auch retriebasierte simulierten Evaluierungsszenarien. Unser Benchmark formuliert die Patentprüfung als einen dynamischen, mehrstufigen Prozess von Begründung und Erwiderung neu. Umfangreiche Experimente mit verschiedenen LLMs liefern kritische Einblicke in die Modellleistung, einschließlich Unterschieden zwischen proprietären und Open-Source-Modellen sowie Aufgabenasymmetrien zwischen der Prüferseite und der Widerlegung durch den Anmelder. Diese Ergebnisse verdeutlichen sowohl das Potenzial als auch die aktuellen Grenzen von LLMs bei der Modellierung komplexer, realer juristischer Argumentation und technischer Neuheitsbeurteilung in der Patentprüfung. Wir veröffentlichen unseren Code und unseren Datensatz, um zukünftige Forschung zur Modellierung der Patentprüfung zu fördern.
English
Patent examination is a complex, multi-stage process requiring both technical expertise and legal reasoning, increasingly challenged by rising application volumes. Prior benchmarks predominantly view patent examination as discriminative classification or static extraction, failing to capture its inherently interactive and iterative nature, similar to the peer review and rebuttal process in academic publishing. In this paper, we introduce PatRe, the first benchmark that models the full patent examination lifecycle, including Office Action generation and applicant rebuttal. PatRe comprises 480 real-world cases and supports both oracle and retrieval-simulated evaluation settings. Our benchmark reframes patent examination as a dynamic, multi-turn process of justification and response. Extensive experiments across various LLMs reveal critical insights into model performance, including differences between proprietary and open-source models, as well as task asymmetries between examiner analysis and applicant-side rebuttal. These findings highlight both the potential and current limitations of LLMs in modeling complex, real-world legal reasoning and technical novelty judgment in patent examination. We release our code and dataset to facilitate future research on patent examination modeling.