IPBench: Оценка знаний крупных языковых моделей в области интеллектуальной собственности

Аннотация

Интеллектуальная собственность (ИС) представляет собой уникальную область, которая объединяет технические и юридические знания, что делает её по своей природе сложной и насыщенной информацией. По мере развития крупных языковых моделей (LLM) они демонстрируют значительный потенциал для обработки задач, связанных с ИС, позволяя более эффективно анализировать, понимать и генерировать контент, связанный с интеллектуальной собственностью. Однако существующие наборы данных и тестовые системы либо сосредоточены исключительно на патентах, либо охватывают ограниченные аспекты области ИС, не соответствуя реальным сценариям. Чтобы устранить этот пробел, мы представляем первую всеобъемлющую таксономию задач ИС и крупный, разнообразный двуязычный тестовый набор IPBench, охватывающий 8 механизмов ИС и 20 задач. Этот тестовый набор предназначен для оценки LLM в реальных приложениях, связанных с интеллектуальной собственностью, включая как понимание, так и генерацию. Мы тестируем 16 LLM, начиная от универсальных моделей и заканчивая специализированными, и обнаруживаем, что даже лучшая модель достигает точности лишь 75,8%, что указывает на значительный потенциал для улучшения. Примечательно, что модели с открытым исходным кодом, ориентированные на ИС и право, отстают от закрытых универсальных моделей. Мы публикуем все данные и код IPBench и будем продолжать обновлять его, добавляя новые задачи, связанные с ИС, чтобы лучше отражать реальные вызовы в области интеллектуальной собственности.

English

Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.