IPBench : Évaluation des connaissances des grands modèles de langage dans le domaine de la propriété intellectuelle
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
April 22, 2025
Auteurs: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI
Résumé
La propriété intellectuelle (PI) est un domaine unique qui intègre des connaissances techniques et juridiques, la rendant intrinsèquement complexe et riche en savoirs. Alors que les grands modèles de langage (LLMs) continuent de progresser, ils montrent un grand potentiel pour traiter des tâches liées à la PI, permettant une analyse, une compréhension et une génération de contenu lié à la PI plus efficaces. Cependant, les ensembles de données et benchmarks existants se concentrent soit de manière étroite sur les brevets, soit couvrent des aspects limités du domaine de la PI, manquant d'alignement avec les scénarios réels. Pour combler cette lacune, nous introduisons la première taxonomie complète des tâches de PI ainsi qu'un benchmark bilingue, diversifié et de grande envergure, IPBench, couvrant 8 mécanismes de PI et 20 tâches. Ce benchmark est conçu pour évaluer les LLMs dans des applications réelles de propriété intellectuelle, englobant à la fois la compréhension et la génération. Nous évaluons 16 LLMs, allant des modèles généralistes aux modèles spécialisés, et constatons que même le modèle le plus performant n'atteint qu'une précision de 75,8%, révélant une marge d'amélioration substantielle. Notamment, les modèles open-source orientés PI et droit sont à la traîne par rapport aux modèles généralistes propriétaires. Nous rendons publics toutes les données et le code d'IPBench et continuerons à les mettre à jour avec des tâches supplémentaires liées à la PI pour mieux refléter les défis réels du domaine de la propriété intellectuelle.
English
Intellectual Property (IP) is a unique domain that integrates technical and
legal knowledge, making it inherently complex and knowledge-intensive. As large
language models (LLMs) continue to advance, they show great potential for
processing IP tasks, enabling more efficient analysis, understanding, and
generation of IP-related content. However, existing datasets and benchmarks
either focus narrowly on patents or cover limited aspects of the IP field,
lacking alignment with real-world scenarios. To bridge this gap, we introduce
the first comprehensive IP task taxonomy and a large, diverse bilingual
benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is
designed to evaluate LLMs in real-world intellectual property applications,
encompassing both understanding and generation. We benchmark 16 LLMs, ranging
from general-purpose to domain-specific models, and find that even the
best-performing model achieves only 75.8% accuracy, revealing substantial room
for improvement. Notably, open-source IP and law-oriented models lag behind
closed-source general-purpose models. We publicly release all data and code of
IPBench and will continue to update it with additional IP-related tasks to
better reflect real-world challenges in the intellectual property domain.Summary
AI-Generated Summary