PatenTEB: Eine umfassende Benchmark und Modellfamilie für die Einbettung von Patenttexten
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
October 25, 2025
papers.authors: Iliass Ayaou, Denis Cavallucci
cs.AI
papers.abstract
Patent-Text-Einbettungen ermöglichen die Suche nach dem Stand der Technik, die Technologielandschaftsanalyse und die Patentanalyse, doch bestehende Benchmarks erfassen die patentspezifischen Herausforderungen nur unzureichend. Wir stellen PatenTEB vor, einen umfassenden Benchmark, der 15 Aufgaben aus den Bereichen Retrieval, Klassifikation, Paraphrasierung und Clustering mit 2,06 Millionen Beispielen umfasst. PatenTEB verwendet domänen-stratifizierte Aufteilungen, domänenspezifisches Hard-Negative-Mining und eine systematische Abdeckung asymmetrischer Fragment-zu-Dokument-Matching-Szenarien, die in allgemeinen Einbettungs-Benchmarks fehlen. Wir entwickeln die patembed-Modellfamilie durch Multi-Task-Training, die von 67M bis 344M Parametern mit Kontextlängen von bis zu 4096 Tokens reicht. Externe Validierungen zeigen eine starke Generalisierungsfähigkeit: patembed-base erzielt State-of-the-Art auf MTEB BigPatentClustering.v2 (0,494 V-Maß vs. 0,445 bisheriger Bestwert), während patembed-large 0,377 NDCG@100 auf DAPFAM erreicht. Systematische Ablationen zeigen, dass Multi-Task-Training die externe Generalisierung trotz geringer Benchmark-Einbußen verbessert und dass domänen-vortrainierte Initialisierung konsistente Vorteile über Aufgabenfamilien hinweg bietet. Alle Ressourcen werden unter https://github.com/iliass-y/patenteb verfügbar gemacht.
Schlüsselwörter: Patentrecherche, Satzeinbettungen, Multi-Task-Lernen, asymmetrisches Retrieval, Benchmark-Evaluierung, kontrastives Lernen.
English
Patent text embeddings enable prior art search, technology landscaping, and
patent analysis, yet existing benchmarks inadequately capture patent-specific
challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15
tasks across retrieval, classification, paraphrase, and clustering, with 2.06
million examples. PatenTEB employs domain-stratified splits, domain specific
hard negative mining, and systematic coverage of asymmetric
fragment-to-document matching scenarios absent from general embedding
benchmarks. We develop the patembed model family through multi-task training,
spanning 67M to 344M parameters with context lengths up to 4096 tokens.
External validation shows strong generalization: patembed-base achieves
state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445
previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM.
Systematic ablations reveal that multi-task training improves external
generalization despite minor benchmark costs, and that domain-pretrained
initialization provides consistent advantages across task families. All
resources will be made available at https://github.com/iliass-y/patenteb.
Keywords: patent retrieval, sentence embeddings, multi-task learning,
asymmetric retrieval, benchmark evaluation, contrastive learning.