ChatPaper.aiChatPaper

PatenTEB: 특허 텍스트 임베딩을 위한 포괄적 벤치마크 및 모델 패밀리

PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

October 25, 2025
저자: Iliass Ayaou, Denis Cavallucci
cs.AI

초록

특허 텍스트 임베딩은 선행기술 조사, 기술 지형도 분석, 특허 분석을 가능하게 하지만, 기존 벤치마크는 특허 고유의 과제를 충분히 포착하지 못합니다. 우리는 206만 개의 예시로 구성된 검색, 분류, 패러프레이즈, 클러스터링 등 15개 과제를 아우르는 포괄적인 벤치마크인 PatenTEB를 소개합니다. PatenTEB는 도메인 계층화 분할, 도메인 특화 하드 네거티브 마이닝, 그리고 일반 임베딩 벤치마크에서는 찾아볼 수 없는 비대칭적 단편-문서 매칭 시나리오를 체계적으로 다룹니다. 우리는 6,700만에서 3억 4,400만 개의 파라미터와 최대 4096 토큰의 컨텍스트 길이를 가진 patembed 모델 패밀리를 다중 과제 학습을 통해 개발했습니다. 외부 검증 결과 강력한 일반화 성능을 확인했습니다: patembed-base는 MTEB BigPatentClustering.v2에서 최첨단 성능(기존 최고 0.445 대비 0.494 V-측정)을, patembed-large는 DAPFAM에서 0.377 NDCG@100을 달성했습니다. 체계적인 애블레이션 분석을 통해 다중 과제 학습이 벤치마크 성능에는 미미한 손실을 초래하지만 외부 일반화 성능을 향상시키며, 도메인 사전 학습된 초기화가 모든 과제 유형에 걸쳐 일관된 이점을 제공함을 확인했습니다. 모든 리소스는 https://github.com/iliass-y/patenteb에서 공개될 예정입니다. 키워드: 특허 검색, 문장 임베딩, 다중 과제 학습, 비대칭 검색, 벤치마크 평가, 대조 학습.
English
Patent text embeddings enable prior art search, technology landscaping, and patent analysis, yet existing benchmarks inadequately capture patent-specific challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15 tasks across retrieval, classification, paraphrase, and clustering, with 2.06 million examples. PatenTEB employs domain-stratified splits, domain specific hard negative mining, and systematic coverage of asymmetric fragment-to-document matching scenarios absent from general embedding benchmarks. We develop the patembed model family through multi-task training, spanning 67M to 344M parameters with context lengths up to 4096 tokens. External validation shows strong generalization: patembed-base achieves state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM. Systematic ablations reveal that multi-task training improves external generalization despite minor benchmark costs, and that domain-pretrained initialization provides consistent advantages across task families. All resources will be made available at https://github.com/iliass-y/patenteb. Keywords: patent retrieval, sentence embeddings, multi-task learning, asymmetric retrieval, benchmark evaluation, contrastive learning.
PDF11December 1, 2025