NER Retriever: Zero-Shot Named Entity Retrieval met Type-Aware Embeddings

Samenvatting

We presenteren NER Retriever, een zero-shot retrieval framework voor ad-hoc Named Entity Retrieval, een variant van Named Entity Recognition (NER), waarbij de gewenste typen niet van tevoren worden opgegeven en een door de gebruiker gedefinieerde typebeschrijving wordt gebruikt om documenten te vinden die entiteiten van dat type noemen. In plaats van te vertrouwen op vaste schema's of fijn afgestemde modellen, bouwt onze methode voort op interne representaties van grote taalmodellen (LLM's) om zowel entiteitsvermeldingen als door de gebruiker verstrekte open-einde typebeschrijvingen in een gedeelde semantische ruimte in te bedden. We laten zien dat interne representaties, specifiek de waardervectoren uit middenlaag transformer-blokken, fijnmazige type-informatie effectiever coderen dan de veelgebruikte top-laag embeddings. Om deze representaties te verfijnen, trainen we een lichtgewicht contrastief projectienetwerk dat type-compatibele entiteiten uitlijnt terwijl niet-gerelateerde typen worden gescheiden. De resulterende entiteits-embeddings zijn compact, type-bewust en zeer geschikt voor nearest-neighbor zoekopdrachten. Geëvalueerd op drie benchmarks, presteert NER Retriever aanzienlijk beter dan zowel lexicale als dense zin-niveau retrieval baselines. Onze bevindingen bieden empirische ondersteuning voor representatie-selectie binnen LLM's en demonstreren een praktische oplossing voor schaalbare, schema-vrije entiteitsretrieval. De NER Retriever Codebase is publiekelijk beschikbaar op https://github.com/ShacharOr100/ner_retriever.

English

We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descriptions into a shared semantic space. We show that internal representations, specifically the value vectors from mid-layer transformer blocks, encode fine-grained type information more effectively than commonly used top-layer embeddings. To refine these representations, we train a lightweight contrastive projection network that aligns type-compatible entities while separating unrelated types. The resulting entity embeddings are compact, type-aware, and well-suited for nearest-neighbor search. Evaluated on three benchmarks, NER Retriever significantly outperforms both lexical and dense sentence-level retrieval baselines. Our findings provide empirical support for representation selection within LLMs and demonstrate a practical solution for scalable, schema-free entity retrieval. The NER Retriever Codebase is publicly available at https://github.com/ShacharOr100/ner_retriever

NER Retriever: Zero-Shot Named Entity Retrieval met Type-Aware Embeddings

NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

Samenvatting

Support