PatenTEB: Een Uitgebreide Benchmark en Modellenfamilie voor Patenttekst-Embedding
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
October 25, 2025
Auteurs: Iliass Ayaou, Denis Cavallucci
cs.AI
Samenvatting
Embeddings van patentteksten maken onderzoek naar eerdere stand van de techniek, technologielandschapsanalyse en patentanalyse mogelijk, maar bestaande benchmarks vangen patentspecifieke uitdagingen onvoldoende. Wij introduceren PatenTEB, een uitgebreide benchmark bestaande uit 15 taken voor retrieval, classificatie, parafrasering en clustering, met 2,06 miljoen voorbeelden. PatenTEB gebruikt domeingestratificeerde splitsingen, domeinspecifieke hard negative mining en systematische dekking van asymmetrische fragment-naar-document matching-scenario's die ontbreken in algemene embedding-benchmarks. Wij ontwikkelen de patembed-modelreeks via multi-task training, met een omvang van 67M tot 344M parameters en contextlengtes tot 4096 tokens. Externe validatie toont sterke generalisatie: patembed-base behaalt state-of-the-art op MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 vorige beste), terwijl patembed-large 0,377 NDCG@100 behaalt op DAPFAM. Systematische ablatiestudies tonen aan dat multi-task training de externe generalisatie verbetert ondanks geringe benchmarkverliezen, en dat domeinvoorgetrainde initialisatie consistente voordelen biedt across taakfamilies. Alle bronnen worden beschikbaar gesteld op https://github.com/iliass-y/patenteb.
Trefwoorden: patentretrieval, zinsembeddings, multi-task leren, asymmetrische retrieval, benchmarkevaluatie, contrastief leren.
English
Patent text embeddings enable prior art search, technology landscaping, and
patent analysis, yet existing benchmarks inadequately capture patent-specific
challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15
tasks across retrieval, classification, paraphrase, and clustering, with 2.06
million examples. PatenTEB employs domain-stratified splits, domain specific
hard negative mining, and systematic coverage of asymmetric
fragment-to-document matching scenarios absent from general embedding
benchmarks. We develop the patembed model family through multi-task training,
spanning 67M to 344M parameters with context lengths up to 4096 tokens.
External validation shows strong generalization: patembed-base achieves
state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445
previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM.
Systematic ablations reveal that multi-task training improves external
generalization despite minor benchmark costs, and that domain-pretrained
initialization provides consistent advantages across task families. All
resources will be made available at https://github.com/iliass-y/patenteb.
Keywords: patent retrieval, sentence embeddings, multi-task learning,
asymmetric retrieval, benchmark evaluation, contrastive learning.