ChatPaper.aiChatPaper

IPBench: 대형 언어 모델의 지식재산 분야 지식 벤치마킹

IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

April 22, 2025
저자: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI

초록

지적재산권(IP)은 기술적 지식과 법적 지식을 통합하는 독특한 영역으로, 본질적으로 복잡하고 지식 집약적인 특성을 지닙니다. 대규모 언어 모델(LLM)이 계속 발전함에 따라, 이러한 모델들은 IP 관련 작업을 처리하는 데 있어서 더 효율적인 분석, 이해 및 콘텐츠 생성을 가능하게 하는 큰 잠재력을 보여주고 있습니다. 그러나 기존의 데이터셋과 벤치마크는 특허에만 초점을 맞추거나 IP 분야의 제한된 측면만을 다루며, 실제 시나리오와의 일치성이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 첫 번째 포괄적인 IP 작업 분류체계와 8가지 IP 메커니즘과 20가지 작업을 포함한 대규모 다국어 벤치마크인 IPBench를 소개합니다. 이 벤치마크는 실제 지적재산권 응용에서 LLM의 이해와 생성을 평가하기 위해 설계되었습니다. 우리는 일반 목적 모델부터 도메인 특화 모델까지 16개의 LLM을 벤치마크했으며, 가장 성능이 뛰어난 모델조차도 75.8%의 정확도만 달성하여 개선의 여지가 크다는 것을 발견했습니다. 특히, 오픈소스 IP 및 법률 지향 모델은 폐쇄형 일반 목적 모델에 뒤처지는 것으로 나타났습니다. 우리는 IPBench의 모든 데이터와 코드를 공개하며, 지적재산권 분야의 실제 도전 과제를 더 잘 반영하기 위해 추가적인 IP 관련 작업으로 지속적으로 업데이트할 예정입니다.
English
Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.

Summary

AI-Generated Summary

PDF42April 23, 2025