PatenTEB: Un Punto de Referencia Integral y una Familia de Modelos para la Incrustación de Textos de Patentes
PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding
October 25, 2025
Autores: Iliass Ayaou, Denis Cavallucci
cs.AI
Resumen
Las incrustaciones de texto de patentes permiten la búsqueda de estado de la técnica, el análisis del panorama tecnológico y el análisis de patentes, sin embargo, los puntos de referencia existentes capturan de manera insuficiente los desafíos específicos de las patentes. Presentamos PatenTEB, un punto de referencia integral que comprende 15 tareas de recuperación, clasificación, paráfrasis y agrupamiento, con 2.06 millones de ejemplos. PatenTEB emplea divisiones estratificadas por dominio, minería de negativos difíciles específica del dominio y cobertura sistemática de escenarios de emparejamiento asimétrico fragmento-documento ausentes en los puntos de referencia de incrustación generales. Desarrollamos la familia de modelos patembed mediante entrenamiento multitarea, que abarca desde 67M hasta 344M de parámetros con longitudes de contexto de hasta 4096 tokens. La validación externa muestra una fuerte generalización: patembed-base logra un estado del arte en MTEB BigPatentClustering.v2 (0.494 medida-V vs. 0.445 del mejor anterior), mientras que patembed-large logra 0.377 NDCG@100 en DAPFAM. Las ablaciones sistemáticas revelan que el entrenamiento multitarea mejora la generalización externa a pesar de costes menores en el punto de referencia, y que la inicialización con pre-entrenamiento de dominio proporciona ventajas consistentes entre familias de tareas. Todos los recursos estarán disponibles en https://github.com/iliass-y/patenteb.
Palabras clave: recuperación de patentes, incrustaciones de oraciones, aprendizaje multitarea, recuperación asimétrica, evaluación comparativa, aprendizaje contrastivo.
English
Patent text embeddings enable prior art search, technology landscaping, and
patent analysis, yet existing benchmarks inadequately capture patent-specific
challenges. We introduce PatenTEB, a comprehensive benchmark comprising 15
tasks across retrieval, classification, paraphrase, and clustering, with 2.06
million examples. PatenTEB employs domain-stratified splits, domain specific
hard negative mining, and systematic coverage of asymmetric
fragment-to-document matching scenarios absent from general embedding
benchmarks. We develop the patembed model family through multi-task training,
spanning 67M to 344M parameters with context lengths up to 4096 tokens.
External validation shows strong generalization: patembed-base achieves
state-of-the-art on MTEB BigPatentClustering.v2 (0.494 V-measure vs. 0.445
previous best), while patembed-large achieves 0.377 NDCG@100 on DAPFAM.
Systematic ablations reveal that multi-task training improves external
generalization despite minor benchmark costs, and that domain-pretrained
initialization provides consistent advantages across task families. All
resources will be made available at https://github.com/iliass-y/patenteb.
Keywords: patent retrieval, sentence embeddings, multi-task learning,
asymmetric retrieval, benchmark evaluation, contrastive learning.