PatenTEB: 特許文書埋め込みの包括的ベンチマークとモデルファミリー
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
October 25, 2025
著者: Iliass Ayaou, Denis Cavallucci
cs.AI
要旨
特許文書の埋め込み表現は、先行技術調査、技術動向分析、特許分析を可能にするが、既存のベンチマークは特許固有の課題を十分に捉えていない。本論文では、検索、分類、言い換え、クラスタリングにわたる15タスク、206万の事例からなる包括的ベンチマークPatenTEBを提案する。PatenTEBは、ドメイン層化分割、ドメイン固有のハードネガティブマイニング、一般的な埋め込みベンチマークには存在しない非対称な断片-文書マッチングシナリオの体系的な網羅を特徴とする。我々は、6700万から3億4400万パラメータ、最大4096トークンのコンテキスト長を有するpatembedモデルファミリーをマルチタスク学習により開発した。外部検証により強力な一般化性能が確認され、patembed-baseはMTEB BigPatentClustering.v2で従来最高値(0.445)を上回る0.494 V-measureを、patembed-largeはDAPFAMで0.377 NDCG@100を達成した。体系的なアブレーション研究により、マルチタスク学習はベンチマークスコアにわずかな悪影響があっても外部一般化を改善すること、ドメイン事前学習による初期化がタスク群を横断して一貫した利点をもたらすことが明らかになった。全てのリソースはhttps://github.com/iliass-y/patenteb で公開予定である。
キーワード:特許検索、文埋め込み、マルチタスク学習、非対称検索、ベンチマーク評価、対照学習
English
Patent text embeddings enable prior art search, technology landscaping, and
patent analysis, yet existing benchmarks inadequately capture patent-specific
challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15
tasks across retrieval, classification, paraphrase, and clustering, with 2.06
million examples. PatenTEB employs domain-stratified splits, domain specific
hard negative mining, and systematic coverage of asymmetric
fragment-to-document matching scenarios absent from general embedding
benchmarks. We develop the patembed model family through multi-task training,
spanning 67M to 344M parameters with context lengths up to 4096 tokens.
External validation shows strong generalization: patembed-base achieves
state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445
previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM.
Systematic ablations reveal that multi-task training improves external
generalization despite minor benchmark costs, and that domain-pretrained
initialization provides consistent advantages across task families. All
resources will be made available at https://github.com/iliass-y/patenteb.
Keywords: patent retrieval, sentence embeddings, multi-task learning,
asymmetric retrieval, benchmark evaluation, contrastive learning.