PatRe: Een Volwaardige Benchmark voor het Genereren van Bezwaarschriften en Tegenschriften in het Octrooionderzoek

Samenvatting

Octrooibeoordeling is een complex, meerfasig proces dat zowel technische expertise als juridische redeneervaardigheid vereist, en wordt in toenemende mate uitgedaagd door stijgende aanvraagvolumes. Bestaande benchmarks beschouwen octrooibeoordeling voornamelijk als discriminerende classificatie of statische extractie, waardoor de inherent interactieve en iteratieve aard ervan niet wordt vastgelegd, vergelijkbaar met het collegiale toetsings- en weerleggingsproces in academische publicaties. In dit artikel introduceren wij PatRe, de eerste benchmark die de volledige levenscyclus van octrooibeoordeling modelleert, inclusief het genereren van Office Actions en de weerlegging door de aanvrager. PatRe omvat 480 cases uit de praktijk en ondersteunt zowel oracle- als retrieval-gesimuleerde evaluatieopzetten. Onze benchmark herformuleert octrooibeoordeling als een dynamisch, meerledig proces van motivering en reactie. Uitgebreide experimenten met diverse LLM's onthullen cruciale inzichten in modelprestaties, waaronder verschillen tussen propriëtaire en open-source modellen, evenals taakasymmetrieën tussen de analyse door de examinator en de weerlegging door de aanvrager. Deze bevindingen benadrukken zowel het potentieel als de huidige beperkingen van LLM's bij het modelleren van complexe, real-world juridische redenering en technische nieuwheidsbeoordeling in octrooibeoordeling. Wij geven onze code en dataset vrij om toekomstig onderzoek naar modellering van octrooibeoordeling te faciliteren.

English

Patent examination is a complex, multi-stage process requiring both technical expertise and legal reasoning, increasingly challenged by rising application volumes. Prior benchmarks predominantly view patent examination as discriminative classification or static extraction, failing to capture its inherently interactive and iterative nature, similar to the peer review and rebuttal process in academic publishing. In this paper, we introduce PatRe, the first benchmark that models the full patent examination lifecycle, including Office Action generation and applicant rebuttal. PatRe comprises 480 real-world cases and supports both oracle and retrieval-simulated evaluation settings. Our benchmark reframes patent examination as a dynamic, multi-turn process of justification and response. Extensive experiments across various LLMs reveal critical insights into model performance, including differences between proprietary and open-source models, as well as task asymmetries between examiner analysis and applicant-side rebuttal. These findings highlight both the potential and current limitations of LLMs in modeling complex, real-world legal reasoning and technical novelty judgment in patent examination. We release our code and dataset to facilitate future research on patent examination modeling.

PatRe: Een Volwaardige Benchmark voor het Genereren van Bezwaarschriften en Tegenschriften in het Octrooionderzoek

PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

Samenvatting

Support