ChatPaper.aiChatPaper

PatenTEB : Un benchmark complet et une famille de modèles pour l'incorporation de textes de brevets

PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

October 25, 2025
papers.authors: Iliass Ayaou, Denis Cavallucci
cs.AI

papers.abstract

Les représentations vectorielles de textes brevetés permettent la recherche d'antériorité, la cartographie technologique et l'analyse de brevets, mais les benchmarks existants capturent insuffisamment les défis spécifiques au domaine brevet. Nous présentons PatenTEB, un benchmark complet comprenant 15 tâches de recherche, classification, paraphrase et clustering, avec 2,06 millions d'exemples. PatenTEB utilise des divisions stratifiées par domaine, une sélection d'exemples négatifs difficiles spécifiques au domaine et une couverture systématique de scénarios de recherche asymétrique fragment-document absents des benchmarks génériques. Nous développons la famille de modèles patembed par apprentissage multi-tâche, couvrant 67M à 344M de paramètres avec des contextes allant jusqu'à 4096 tokens. La validation externe montre une forte généralisation : patembed-base obtient l'état de l'art sur MTEB BigPatentClustering.v2 (0.494 V-mesure contre 0.445 précédent meilleur), tandis que patembed-large atteint 0.377 NDCG@100 sur DAPFAM. Les ablations systématiques révèlent que l'apprentissage multi-tâche améliore la généralisation externe malgré des coûts mineurs sur le benchmark, et qu'une initialisation par pré-entraînement domaine-spécifique offre des avantages constants across les familles de tâches. Toutes les ressources seront disponibles sur https://github.com/iliass-y/patenteb. Mots-clés : recherche de brevets, embeddings de phrases, apprentissage multi-tâche, recherche asymétrique, évaluation de benchmarks, apprentissage contrastif.
English
Patent text embeddings enable prior art search, technology landscaping, and patent analysis, yet existing benchmarks inadequately capture patent-specific challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15 tasks across retrieval, classification, paraphrase, and clustering, with 2.06 million examples. PatenTEB employs domain-stratified splits, domain specific hard negative mining, and systematic coverage of asymmetric fragment-to-document matching scenarios absent from general embedding benchmarks. We develop the patembed model family through multi-task training, spanning 67M to 344M parameters with context lengths up to 4096 tokens. External validation shows strong generalization: patembed-base achieves state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM. Systematic ablations reveal that multi-task training improves external generalization despite minor benchmark costs, and that domain-pretrained initialization provides consistent advantages across task families. All resources will be made available at https://github.com/iliass-y/patenteb. Keywords: patent retrieval, sentence embeddings, multi-task learning, asymmetric retrieval, benchmark evaluation, contrastive learning.
PDF11December 1, 2025