IPBench: Evaluación del Conocimiento de los Modelos de Lenguaje de Gran Escala en Propiedad Intelectual
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
April 22, 2025
Autores: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI
Resumen
La Propiedad Intelectual (PI) es un dominio único que integra conocimientos técnicos y legales, lo que la hace inherentemente compleja y demandante en términos de conocimiento. A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando, muestran un gran potencial para procesar tareas relacionadas con la PI, permitiendo un análisis, comprensión y generación de contenido relacionado con la PI más eficiente. Sin embargo, los conjuntos de datos y puntos de referencia existentes se centran de manera limitada en patentes o abarcan aspectos reducidos del campo de la PI, careciendo de alineación con escenarios del mundo real. Para cerrar esta brecha, presentamos la primera taxonomía integral de tareas de PI y un punto de referencia bilingüe, diverso y extenso, IPBench, que cubre 8 mecanismos de PI y 20 tareas. Este punto de referencia está diseñado para evaluar LLMs en aplicaciones de propiedad intelectual del mundo real, abarcando tanto la comprensión como la generación. Evaluamos 16 LLMs, que van desde modelos de propósito general hasta modelos específicos del dominio, y encontramos que incluso el modelo con mejor rendimiento alcanza solo un 75.8% de precisión, revelando un margen sustancial de mejora. Notablemente, los modelos de código abierto orientados a la PI y al derecho se quedan atrás en comparación con los modelos de propósito general de código cerrado. Publicamos todos los datos y el código de IPBench y continuaremos actualizándolo con tareas adicionales relacionadas con la PI para reflejar mejor los desafíos del mundo real en el dominio de la propiedad intelectual.
English
Intellectual Property (IP) is a unique domain that integrates technical and
legal knowledge, making it inherently complex and knowledge-intensive. As large
language models (LLMs) continue to advance, they show great potential for
processing IP tasks, enabling more efficient analysis, understanding, and
generation of IP-related content. However, existing datasets and benchmarks
either focus narrowly on patents or cover limited aspects of the IP field,
lacking alignment with real-world scenarios. To bridge this gap, we introduce
the first comprehensive IP task taxonomy and a large, diverse bilingual
benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is
designed to evaluate LLMs in real-world intellectual property applications,
encompassing both understanding and generation. We benchmark 16 LLMs, ranging
from general-purpose to domain-specific models, and find that even the
best-performing model achieves only 75.8% accuracy, revealing substantial room
for improvement. Notably, open-source IP and law-oriented models lag behind
closed-source general-purpose models. We publicly release all data and code of
IPBench and will continue to update it with additional IP-related tasks to
better reflect real-world challenges in the intellectual property domain.Summary
AI-Generated Summary