PatRe: Бенчмарк для полного цикла генерации запросов экспертизы и возражений при патентовании
PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination
May 5, 2026
Авторы: Qiyao Wang, Xinyi Chen, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang
cs.AI
Аннотация
Экспертиза патентных заявок представляет собой сложный многоэтапный процесс, требующий как технической экспертизы, так и юридического обоснования, который все в большей степени осложняется растущим объемом подаваемых заявок. Предыдущие бенчмарки преимущественно рассматривают патентную экспертизу как дискриминационную классификацию или статическое извлечение, не отражая ее изначально интерактивный и итеративный характер, сходный с процессом рецензирования и опровержения в академических публикациях. В данной статье мы представляем PatRe — первый бенчмарк, моделирующий полный жизненный цикл патентной экспертизы, включая генерацию запросов Патентного ведомства и возражения заявителя. PatRe включает 480 реальных случаев и поддерживает как оракульную, так и ретривельную симуляцию условий оценки. Наш бенчмарк переосмысливает патентную экспертизу как динамический многоходовой процесс обоснования и ответа. Масштабные эксперименты с различными большими языковыми моделями выявляют ключевые инсайты о производительности моделей, включая различия между проприетарными и открытыми моделями, а также асимметрию задач между анализом эксперта и возражениями со стороны заявителя. Эти результаты подчеркивают как потенциал, так и текущие ограничения больших языковых моделей в моделировании сложного реального юридического обоснования и оценки технической новизны в патентной экспертизе. Мы публикуем наш код и набор данных для содействия будущим исследованиям в области моделирования патентной экспертизы.
English
Patent examination is a complex, multi-stage process requiring both technical expertise and legal reasoning, increasingly challenged by rising application volumes. Prior benchmarks predominantly view patent examination as discriminative classification or static extraction, failing to capture its inherently interactive and iterative nature, similar to the peer review and rebuttal process in academic publishing. In this paper, we introduce PatRe, the first benchmark that models the full patent examination lifecycle, including Office Action generation and applicant rebuttal. PatRe comprises 480 real-world cases and supports both oracle and retrieval-simulated evaluation settings. Our benchmark reframes patent examination as a dynamic, multi-turn process of justification and response. Extensive experiments across various LLMs reveal critical insights into model performance, including differences between proprietary and open-source models, as well as task asymmetries between examiner analysis and applicant-side rebuttal. These findings highlight both the potential and current limitations of LLMs in modeling complex, real-world legal reasoning and technical novelty judgment in patent examination. We release our code and dataset to facilitate future research on patent examination modeling.