ChatPaper.aiChatPaper

IPBench: Оценка знаний крупных языковых моделей в области интеллектуальной собственности

IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

April 22, 2025
Авторы: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
cs.AI

Аннотация

Интеллектуальная собственность (ИС) представляет собой уникальную область, которая объединяет технические и юридические знания, что делает её по своей природе сложной и насыщенной информацией. По мере развития крупных языковых моделей (LLM) они демонстрируют значительный потенциал для обработки задач, связанных с ИС, позволяя более эффективно анализировать, понимать и генерировать контент, связанный с интеллектуальной собственностью. Однако существующие наборы данных и тестовые системы либо сосредоточены исключительно на патентах, либо охватывают ограниченные аспекты области ИС, не соответствуя реальным сценариям. Чтобы устранить этот пробел, мы представляем первую всеобъемлющую таксономию задач ИС и крупный, разнообразный двуязычный тестовый набор IPBench, охватывающий 8 механизмов ИС и 20 задач. Этот тестовый набор предназначен для оценки LLM в реальных приложениях, связанных с интеллектуальной собственностью, включая как понимание, так и генерацию. Мы тестируем 16 LLM, начиная от универсальных моделей и заканчивая специализированными, и обнаруживаем, что даже лучшая модель достигает точности лишь 75,8%, что указывает на значительный потенциал для улучшения. Примечательно, что модели с открытым исходным кодом, ориентированные на ИС и право, отстают от закрытых универсальных моделей. Мы публикуем все данные и код IPBench и будем продолжать обновлять его, добавляя новые задачи, связанные с ИС, чтобы лучше отражать реальные вызовы в области интеллектуальной собственности.
English
Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.

Summary

AI-Generated Summary

PDF42April 23, 2025