ChatPaper.aiChatPaper

PatenTEB: Um Benchmark Abrangente e uma Família de Modelos para Incorporação de Texto de Patentes

PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

October 25, 2025
Autores: Iliass Ayaou, Denis Cavallucci
cs.AI

Resumo

As incorporações de texto de patentes permitem busca de arte anterior, mapeamento tecnológico e análise de patentes, porém os benchmarks existentes capturam inadequadamente os desafios específicos de patentes. Apresentamos o PatenTEB, um benchmark abrangente compreendendo 15 tarefas de recuperação, classificação, paráfrase e agrupamento, com 2,06 milhões de exemplos. O PatenTEB emprega divisões estratificadas por domínio, mineração de negativos difíceis específicos do domínio e cobertura sistemática de cenários assimétricos de correspondência fragmento-documento ausentes em benchmarks gerais de incorporação. Desenvolvemos a família de modelos patembed através de treinamento multitarefa, abrangendo de 67M a 344M de parâmetros com comprimentos de contexto de até 4096 tokens. A validação externa mostra forte generalização: o patembed-base alcança estado da arte no MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 do melhor anterior), enquanto o patembed-large alcança 0,377 NDCG@100 no DAPFAM. Ablações sistemáticas revelam que o treinamento multitarefa melhora a generalização externa apesar de custos menores no benchmark, e que a inicialização com pré-treinamento de domínio fornece vantagens consistentes entre famílias de tarefas. Todos os recursos estarão disponíveis em https://github.com/iliass-y/patenteb. Palavras-chave: recuperação de patentes, incorporações de sentenças, aprendizado multitarefa, recuperação assimétrica, avaliação de benchmark, aprendizado contrastivo.
English
Patent text embeddings enable prior art search, technology landscaping, and patent analysis, yet existing benchmarks inadequately capture patent-specific challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15 tasks across retrieval, classification, paraphrase, and clustering, with 2.06 million examples. PatenTEB employs domain-stratified splits, domain specific hard negative mining, and systematic coverage of asymmetric fragment-to-document matching scenarios absent from general embedding benchmarks. We develop the patembed model family through multi-task training, spanning 67M to 344M parameters with context lengths up to 4096 tokens. External validation shows strong generalization: patembed-base achieves state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445 previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM. Systematic ablations reveal that multi-task training improves external generalization despite minor benchmark costs, and that domain-pretrained initialization provides consistent advantages across task families. All resources will be made available at https://github.com/iliass-y/patenteb. Keywords: patent retrieval, sentence embeddings, multi-task learning, asymmetric retrieval, benchmark evaluation, contrastive learning.
PDF21February 7, 2026