ChatPaper.aiChatPaper

NER Retriever: 型を意識した埋め込みによるゼロショット固有表現検索

NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

September 4, 2025
著者: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman
cs.AI

要旨

本論文では、NER Retrieverを紹介します。これは、アドホックな固有表現検索(Named Entity Retrieval)のためのゼロショット検索フレームワークであり、固有表現認識(NER)の一種です。このタスクでは、事前に興味のあるタイプが提供されず、ユーザー定義のタイプ記述を使用してそのタイプのエンティティに言及する文書を検索します。固定スキーマやファインチューニングされたモデルに依存する代わりに、本手法は大規模言語モデル(LLM)の内部表現を基盤として、エンティティ言及とユーザー提供のオープンエンドなタイプ記述を共有の意味空間に埋め込みます。特に、中間層のトランスフォーマーブロックから得られる値ベクトルが、一般的に使用されるトップ層の埋め込みよりも細かいタイプ情報を効果的にエンコードすることを示します。これらの表現を洗練するために、タイプ互換性のあるエンティティを整列させながら無関係なタイプを分離する軽量なコントラスティブ投影ネットワークを訓練します。結果として得られるエンティティ埋め込みはコンパクトでタイプを意識しており、最近傍探索に適しています。3つのベンチマークで評価した結果、NER Retrieverは語彙ベースおよび密な文レベルの検索ベースラインを大幅に上回りました。本研究の結果は、LLM内での表現選択を実証的に支持し、スケーラブルでスキーマフリーなエンティティ検索のための実用的なソリューションを示しています。NER Retrieverのコードベースはhttps://github.com/ShacharOr100/ner_retrieverで公開されています。
English
We present NER Retriever, a zero-shot retrieval framework for ad-hoc Named Entity Retrieval, a variant of Named Entity Recognition (NER), where the types of interest are not provided in advance, and a user-defined type description is used to retrieve documents mentioning entities of that type. Instead of relying on fixed schemas or fine-tuned models, our method builds on internal representations of large language models (LLMs) to embed both entity mentions and user-provided open-ended type descriptions into a shared semantic space. We show that internal representations, specifically the value vectors from mid-layer transformer blocks, encode fine-grained type information more effectively than commonly used top-layer embeddings. To refine these representations, we train a lightweight contrastive projection network that aligns type-compatible entities while separating unrelated types. The resulting entity embeddings are compact, type-aware, and well-suited for nearest-neighbor search. Evaluated on three benchmarks, NER Retriever significantly outperforms both lexical and dense sentence-level retrieval baselines. Our findings provide empirical support for representation selection within LLMs and demonstrate a practical solution for scalable, schema-free entity retrieval. The NER Retriever Codebase is publicly available at https://github.com/ShacharOr100/ner_retriever
PDF101September 5, 2025