PatenTEB: Комплексный эталон и семейство моделей для векторного представления текстов патентов
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
October 25, 2025
Авторы: Iliass Ayaou, Denis Cavallucci
cs.AI
Аннотация
Векторные представления патентных текстов позволяют осуществлять поиск аналогов, анализ технологических ландшафтов и патентный анализ, однако существующие эталоны неадекватно отражают специфические для патентной области сложности. Мы представляем PatenTEB — комплексный эталон, включающий 15 задач по поиску, классификации, определению парафраз и кластеризации с 2,06 миллионами примеров. PatenTEB использует доменно-стратифицированные разбиения, доменно-специфичный подбор сложных негативных примеров и систематическое покрытие асимметричных сценариев сопоставления фрагментов с документами, отсутствующих в общих эталонах для векторных представлений. Мы разработали семейство моделей patembed с помощью многозадачного обучения, охватывающее архитектуры от 67 млн до 344 млн параметров с длиной контекста до 4096 токенов. Внешняя валидация демонстрирует сильную обобщающую способность: patembed-base достигает state-of-the-art на MTEB BigPatentClustering.v2 (V-мера 0,494 против предыдущего лучшего показателя 0,445), а patembed-large показывает результат 0,377 NDCG@100 на DAPFAM. Систематические абляции показывают, что многозадачное обучение улучшает внешнюю обобщающую способность, несмотря на незначительное снижение метрик на эталоне, а доменно-предобученная инициализация обеспечивает стабильные преимущества для разных семейств задач. Все ресурсы будут доступны по адресу https://github.com/iliass-y/patenteb.
Ключевые слова: патентный поиск, векторные представления предложений, многозадачное обучение, асимметричный поиск, оценка эталонов, контрастивное обучение.
English
Patent text embeddings enable prior art search, technology landscaping, and
patent analysis, yet existing benchmarks inadequately capture patent-specific
challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15
tasks across retrieval, classification, paraphrase, and clustering, with 2.06
million examples. PatenTEB employs domain-stratified splits, domain specific
hard negative mining, and systematic coverage of asymmetric
fragment-to-document matching scenarios absent from general embedding
benchmarks. We develop the patembed model family through multi-task training,
spanning 67M to 344M parameters with context lengths up to 4096 tokens.
External validation shows strong generalization: patembed-base achieves
state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445
previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM.
Systematic ablations reveal that multi-task training improves external
generalization despite minor benchmark costs, and that domain-pretrained
initialization provides consistent advantages across task families. All
resources will be made available at https://github.com/iliass-y/patenteb.
Keywords: patent retrieval, sentence embeddings, multi-task learning,
asymmetric retrieval, benchmark evaluation, contrastive learning.