ChatPaper.aiChatPaper

PatenTEB: Un Benchmark Completo e una Famiglia di Modelli per l'Embedding di Testi Brevettuali

PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

October 25, 2025
Autori: Iliass Ayaou, Denis Cavallucci
cs.AI

Abstract

Gli embedding di testi brevettuali abilitano la ricerca di tecnologie preesistenti, l'analisi del panorama tecnologico e l'analisi brevettuale, ma i benchmark esistenti non catturano adeguatamente le sfide specifiche del dominio brevettuale. Introduciamo PatenTEB, un benchmark completo che comprende 15 task di retrieval, classificazione, parafrasi e clustering, con 2,06 milioni di esempi. PatenTEB utilizza suddivisioni stratificate per dominio, tecniche specifiche di hard negative mining e una copertura sistematica di scenari di matching asimmetrico frammento-documento assenti nei benchmark generici per embedding. Sviluppiamo la famiglia di modelli patembed attraverso addestramento multi-task, con dimensioni da 67M a 344M di parametri e lunghezze contestuali fino a 4096 token. La validazione esterna mostra una forte generalizzazione: patembed-base raggiunge lo stato dell'arte su MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 del precedente migliore), mentre patembed-large raggiunge 0,377 NDCG@100 su DAPFAM. Ablazioni sistematiche rivelano che l'addestramento multi-task migliora la generalizzazione esterna nonostante lievi costi sul benchmark, e che l'inizializzazione con pre-addestramento di dominio fornisce vantaggi consistenti tra le famiglie di task. Tutte le risorse saranno rese disponibili su https://github.com/iliass-y/patenteb. Parole chiave: retrieval brevettuale, embedding di frasi, apprendimento multi-task, retrieval asimmetrico, valutazione di benchmark, apprendimento contrastivo.
English
Patent text embeddings enable prior art search, technology landscaping, and patent analysis, yet existing benchmarks inadequately capture patent-specific challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15 tasks across retrieval, classification, paraphrase, and clustering, with 2.06 million examples. PatenTEB employs domain-stratified splits, domain specific hard negative mining, and systematic coverage of asymmetric fragment-to-document matching scenarios absent from general embedding benchmarks. We develop the patembed model family through multi-task training, spanning 67M to 344M parameters with context lengths up to 4096 tokens. External validation shows strong generalization: patembed-base achieves state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM. Systematic ablations reveal that multi-task training improves external generalization despite minor benchmark costs, and that domain-pretrained initialization provides consistent advantages across task families. All resources will be made available at https://github.com/iliass-y/patenteb. Keywords: patent retrieval, sentence embeddings, multi-task learning, asymmetric retrieval, benchmark evaluation, contrastive learning.
PDF11December 1, 2025