ChatPaper.aiChatPaper

NER Retriever: Recuperación de Entidades Nombradas en Cero Disparos con Incrustaciones Conscientes del Tipo

NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

September 4, 2025
Autores: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman
cs.AI

Resumen

Presentamos NER Retriever, un marco de recuperación zero-shot para la Recuperación de Entidades Nombradas (NER) ad-hoc, una variante del Reconocimiento de Entidades Nombradas (NER) en la que los tipos de interés no se proporcionan de antemano, y se utiliza una descripción de tipo definida por el usuario para recuperar documentos que mencionan entidades de ese tipo. En lugar de depender de esquemas fijos o modelos ajustados, nuestro método se basa en las representaciones internas de los modelos de lenguaje de gran escala (LLMs) para incrustar tanto las menciones de entidades como las descripciones de tipo abiertas proporcionadas por el usuario en un espacio semántico compartido. Demostramos que las representaciones internas, específicamente los vectores de valor de los bloques transformadores de capas intermedias, codifican información de tipo de grano fino de manera más efectiva que las incrustaciones de capa superior comúnmente utilizadas. Para refinar estas representaciones, entrenamos una red de proyección contrastiva ligera que alinea entidades compatibles con el tipo mientras separa tipos no relacionados. Las incrustaciones de entidades resultantes son compactas, conscientes del tipo y adecuadas para la búsqueda del vecino más cercano. Evaluado en tres puntos de referencia, NER Retriever supera significativamente tanto las líneas base de recuperación léxica como las de nivel de oración densa. Nuestros hallazgos proporcionan apoyo empírico para la selección de representaciones dentro de los LLMs y demuestran una solución práctica para la recuperación escalable de entidades sin esquema. El código fuente de NER Retriever está disponible públicamente en https://github.com/ShacharOr100/ner_retriever.
English
We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descriptions into a shared semantic space. We show that internal representations, specifically the value vectors from mid-layer transformer blocks, encode fine-grained type information more effectively than commonly used top-layer embeddings. To refine these representations, we train a lightweight contrastive projection network that aligns type-compatible entities while separating unrelated types. The resulting entity embeddings are compact, type-aware, and well-suited for nearest-neighbor search. Evaluated on three benchmarks, NER Retriever significantly outperforms both lexical and dense sentence-level retrieval baselines. Our findings provide empirical support for representation selection within LLMs and demonstrate a practical solution for scalable, schema-free entity retrieval. The NER Retriever Codebase is publicly available at https://github.com/ShacharOr100/ner_retriever
PDF101September 5, 2025