ChatPaper.aiChatPaper

IPBench: Avaliando o Conhecimento de Modelos de Linguagem de Grande Escala em Propriedade Intelectual

IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

April 22, 2025
Autores: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI

Resumo

A Propriedade Intelectual (PI) é um domínio único que integra conhecimentos técnicos e jurídicos, tornando-a intrinsecamente complexa e intensiva em conhecimento. À medida que os grandes modelos de linguagem (LLMs) continuam a avançar, eles demonstram grande potencial para processar tarefas de PI, permitindo uma análise, compreensão e geração de conteúdo relacionado à PI mais eficientes. No entanto, os conjuntos de dados e benchmarks existentes focam-se de forma restrita em patentes ou cobrem aspectos limitados do campo da PI, carecendo de alinhamento com cenários do mundo real. Para preencher essa lacuna, introduzimos a primeira taxonomia abrangente de tarefas de PI e um benchmark bilíngue grande e diversificado, o IPBench, que abrange 8 mecanismos de PI e 20 tarefas. Este benchmark foi projetado para avaliar LLMs em aplicações reais de propriedade intelectual, englobando tanto a compreensão quanto a geração. Avaliamos 16 LLMs, desde modelos de propósito geral até modelos específicos de domínio, e descobrimos que mesmo o modelo com melhor desempenho alcança apenas 75,8% de precisão, revelando um espaço substancial para melhoria. Notavelmente, modelos de código aberto voltados para PI e direito ficam atrás de modelos de propósito geral de código fechado. Disponibilizamos publicamente todos os dados e códigos do IPBench e continuaremos a atualizá-lo com tarefas adicionais relacionadas à PI para refletir melhor os desafios do mundo real no domínio da propriedade intelectual.
English
Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.

Summary

AI-Generated Summary

PDF42April 23, 2025