NER Retriever: Recuperação de Entidades Nomeadas em Zero-Shot com Embeddings Conscientes do Tipo

Resumo

Apresentamos o NER Retriever, uma estrutura de recuperação zero-shot para Recuperação de Entidades Nomeadas (NER) ad-hoc, uma variante do Reconhecimento de Entidades Nomeadas (NER), onde os tipos de interesse não são fornecidos antecipadamente, e uma descrição de tipo definida pelo usuário é usada para recuperar documentos que mencionam entidades desse tipo. Em vez de depender de esquemas fixos ou modelos ajustados, nosso método se baseia em representações internas de modelos de linguagem de grande escala (LLMs) para incorporar tanto menções de entidades quanto descrições de tipo abertas fornecidas pelo usuário em um espaço semântico compartilhado. Mostramos que as representações internas, especificamente os vetores de valor dos blocos intermediários do transformador, codificam informações de tipo de forma mais granular do que os embeddings comumente usados na camada superior. Para refinar essas representações, treinamos uma rede de projeção contrastiva leve que alinha entidades compatíveis com o tipo enquanto separa tipos não relacionados. Os embeddings de entidade resultantes são compactos, conscientes do tipo e bem adequados para busca de vizinhos mais próximos. Avaliado em três benchmarks, o NER Retriever supera significativamente as linhas de base de recuperação lexical e de nível de sentença densa. Nossas descobertas fornecem suporte empírico para a seleção de representações dentro de LLMs e demonstram uma solução prática para recuperação de entidades escalável e sem esquema. O código-fonte do NER Retriever está publicamente disponível em https://github.com/ShacharOr100/ner_retriever.

English

We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descriptions into a shared semantic space. We show that internal representations, specifically the value vectors from mid-layer transformer blocks, encode fine-grained type information more effectively than commonly used top-layer embeddings. To refine these representations, we train a lightweight contrastive projection network that aligns type-compatible entities while separating unrelated types. The resulting entity embeddings are compact, type-aware, and well-suited for nearest-neighbor search. Evaluated on three benchmarks, NER Retriever significantly outperforms both lexical and dense sentence-level retrieval baselines. Our findings provide empirical support for representation selection within LLMs and demonstrate a practical solution for scalable, schema-free entity retrieval. The NER Retriever Codebase is publicly available at https://github.com/ShacharOr100/ner_retriever

NER Retriever: Recuperação de Entidades Nomeadas em Zero-Shot com Embeddings Conscientes do Tipo

NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

Resumo

Support