NER Retriever: Recuperação de Entidades Nomeadas em Zero-Shot com Embeddings Conscientes do Tipo
NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings
September 4, 2025
Autores: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman
cs.AI
Resumo
Apresentamos o NER Retriever, uma estrutura de recuperação zero-shot para Recuperação de Entidades Nomeadas (NER) ad-hoc, uma variante do Reconhecimento de Entidades Nomeadas (NER), onde os tipos de interesse não são fornecidos antecipadamente, e uma descrição de tipo definida pelo usuário é usada para recuperar documentos que mencionam entidades desse tipo. Em vez de depender de esquemas fixos ou modelos ajustados, nosso método se baseia em representações internas de modelos de linguagem de grande escala (LLMs) para incorporar tanto menções de entidades quanto descrições de tipo abertas fornecidas pelo usuário em um espaço semântico compartilhado. Mostramos que as representações internas, especificamente os vetores de valor dos blocos intermediários do transformador, codificam informações de tipo de forma mais granular do que os embeddings comumente usados na camada superior. Para refinar essas representações, treinamos uma rede de projeção contrastiva leve que alinha entidades compatíveis com o tipo enquanto separa tipos não relacionados. Os embeddings de entidade resultantes são compactos, conscientes do tipo e bem adequados para busca de vizinhos mais próximos. Avaliado em três benchmarks, o NER Retriever supera significativamente as linhas de base de recuperação lexical e de nível de sentença densa. Nossas descobertas fornecem suporte empírico para a seleção de representações dentro de LLMs e demonstram uma solução prática para recuperação de entidades escalável e sem esquema. O código-fonte do NER Retriever está publicamente disponível em https://github.com/ShacharOr100/ner_retriever.
English
We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named
Entity Retrieval, a variant of Named Entity Recognition (NER), where the types
of interest are not provided in advance, and a user-defined type description is
used to retrieve documents mentioning entities of that type. Instead of relying
on fixed schemas or fine-tuned models, our method builds on internal
representations of large language models (LLMs) to embed both entity mentions
and user-provided open-ended type descriptions into a shared semantic space. We
show that internal representations, specifically the value vectors from
mid-layer transformer blocks, encode fine-grained type information more
effectively than commonly used top-layer embeddings. To refine these
representations, we train a lightweight contrastive projection network that
aligns type-compatible entities while separating unrelated types. The resulting
entity embeddings are compact, type-aware, and well-suited for nearest-neighbor
search. Evaluated on three benchmarks, NER Retriever significantly outperforms
both lexical and dense sentence-level retrieval baselines. Our findings provide
empirical support for representation selection within LLMs and demonstrate a
practical solution for scalable, schema-free entity retrieval. The NER
Retriever Codebase is publicly available at
https://github.com/ShacharOr100/ner_retriever