ChatPaper.aiChatPaper

IPBench: Benchmarking des Wissens großer Sprachmodelle im Bereich des geistigen Eigentums

IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

April 22, 2025
Autoren: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI

Zusammenfassung

Geistiges Eigentum (Intellectual Property, IP) ist ein einzigartiges Fachgebiet, das technisches und rechtliches Wissen integriert und dadurch inhärent komplex und wissensintensiv ist. Mit der fortschreitenden Entwicklung großer Sprachmodelle (Large Language Models, LLMs) zeigen diese ein großes Potenzial bei der Bearbeitung von IP-Aufgaben, wodurch eine effizientere Analyse, das Verständnis und die Generierung von IP-bezogenen Inhalten ermöglicht werden. Allerdings konzentrieren sich bestehende Datensätze und Benchmarks entweder eng auf Patente oder decken nur begrenzte Aspekte des IP-Bereichs ab, wobei sie oft nicht mit realen Szenarien übereinstimmen. Um diese Lücke zu schließen, führen wir die erste umfassende Taxonomie für IP-Aufgaben sowie einen großen, vielfältigen zweisprachigen Benchmark, IPBench, ein, der 8 IP-Mechanismen und 20 Aufgaben abdeckt. Dieser Benchmark wurde entwickelt, um LLMs in realen Anwendungen des geistigen Eigentums zu bewerten, wobei sowohl das Verständnis als auch die Generierung berücksichtigt werden. Wir testen 16 LLMs, die von allgemeinen bis zu domänenspezifischen Modellen reichen, und stellen fest, dass selbst das leistungsstärkste Modell nur eine Genauigkeit von 75,8 % erreicht, was erheblichen Verbesserungsbedarf offenbart. Bemerkenswerterweise liegen Open-Source-Modelle mit IP- und rechtswissenschaftlichem Fokus hinter geschlossenen, allgemeinen Modellen zurück. Wir veröffentlichen alle Daten und den Code von IPBench und werden den Benchmark kontinuierlich mit weiteren IP-bezogenen Aufgaben aktualisieren, um die realen Herausforderungen im Bereich des geistigen Eigentums besser abzubilden.
English
Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.
PDF42April 23, 2025