IPBench: Evaluación del Conocimiento de los Modelos de Lenguaje de Gran Escala en Propiedad Intelectual

Resumen

La Propiedad Intelectual (PI) es un dominio único que integra conocimientos técnicos y legales, lo que la hace inherentemente compleja y demandante en términos de conocimiento. A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando, muestran un gran potencial para procesar tareas relacionadas con la PI, permitiendo un análisis, comprensión y generación de contenido relacionado con la PI más eficiente. Sin embargo, los conjuntos de datos y puntos de referencia existentes se centran de manera limitada en patentes o abarcan aspectos reducidos del campo de la PI, careciendo de alineación con escenarios del mundo real. Para cerrar esta brecha, presentamos la primera taxonomía integral de tareas de PI y un punto de referencia bilingüe, diverso y extenso, IPBench, que cubre 8 mecanismos de PI y 20 tareas. Este punto de referencia está diseñado para evaluar LLMs en aplicaciones de propiedad intelectual del mundo real, abarcando tanto la comprensión como la generación. Evaluamos 16 LLMs, que van desde modelos de propósito general hasta modelos específicos del dominio, y encontramos que incluso el modelo con mejor rendimiento alcanza solo un 75.8% de precisión, revelando un margen sustancial de mejora. Notablemente, los modelos de código abierto orientados a la PI y al derecho se quedan atrás en comparación con los modelos de propósito general de código cerrado. Publicamos todos los datos y el código de IPBench y continuaremos actualizándolo con tareas adicionales relacionadas con la PI para reflejar mejor los desafíos del mundo real en el dominio de la propiedad intelectual.

English

Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.