ChatPaper.aiChatPaper

IPBench: Valutazione delle Conoscenze dei Modelli Linguistici di Grande Scala nel Campo della Proprietà Intellettuale

IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

April 22, 2025
Autori: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI

Abstract

La Proprietà Intellettuale (IP) è un dominio unico che integra conoscenze tecniche e legali, rendendolo intrinsecamente complesso e ad alta intensità di conoscenza. Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire, dimostrano un grande potenziale nell'elaborazione di compiti legati alla IP, consentendo un'analisi, una comprensione e una generazione più efficiente di contenuti relativi alla proprietà intellettuale. Tuttavia, i dataset e i benchmark esistenti si concentrano in modo ristretto sui brevetti o coprono aspetti limitati del campo della IP, mancando di allinearsi con scenari reali. Per colmare questa lacuna, introduciamo la prima tassonomia completa dei compiti di IP e un benchmark bilingue ampio e diversificato, IPBench, che copre 8 meccanismi di IP e 20 compiti. Questo benchmark è progettato per valutare i LLM in applicazioni reali di proprietà intellettuale, comprendendo sia la comprensione che la generazione. Abbiamo testato 16 LLM, che vanno da modelli generici a modelli specifici per il dominio, e abbiamo riscontrato che anche il modello con le migliori prestazioni raggiunge solo il 75,8% di accuratezza, rivelando un ampio margine di miglioramento. È degno di nota che i modelli open-source orientati alla IP e al diritto rimangono indietro rispetto ai modelli generici closed-source. Rilasciamo pubblicamente tutti i dati e il codice di IPBench e continueremo ad aggiornarlo con ulteriori compiti legati alla IP per riflettere meglio le sfide reali nel dominio della proprietà intellettuale.
English
Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.
PDF42April 23, 2025