LLMの潜在変数をどのように制御して幻覚検出を行うか?
How to Steer LLM Latents for Hallucination Detection?
March 1, 2025
著者: Seongheon Park, Xuefeng Du, Min-Hsuan Yeh, Haobo Wang, Yixuan Li
cs.AI
要旨
大規模言語モデル(LLM)における幻覚(Hallucination)は、現実世界での安全な展開において重大な懸念となっています。最近のアプローチでは、幻覚検出のためにLLMの潜在空間を活用していますが、言語的整合性を最適化された埋め込みは、事実の正確さではなく、真実と幻覚の内容を明確に分離することにしばしば失敗します。この問題に対処するため、我々は「真実分離ベクトル(Truthfulness Separator Vector, TSV)」を提案します。TSVは軽量で柔軟なステアリングベクトルであり、推論中にLLMの表現空間を再形成し、モデルのパラメータを変更することなく、真実と幻覚の出力をより明確に分離します。我々の二段階フレームワークでは、まずTSVを少量のラベル付きサンプルでトレーニングし、コンパクトで明確に分離されたクラスターを形成します。その後、ラベルなしのLLM生成データをサンプルセットに追加し、最適輸送ベースのアルゴリズムを用いた擬似ラベリングと信頼度ベースのフィルタリングプロセスを組み合わせます。大規模な実験により、TSVが最小限のラベル付きデータで最先端の性能を達成し、データセット間での強い汎化能力を示し、現実世界のLLMアプリケーションにおける実用的なソリューションを提供することが実証されました。
English
Hallucinations in LLMs pose a significant concern to their safe deployment in
real-world applications. Recent approaches have leveraged the latent space of
LLMs for hallucination detection, but their embeddings, optimized for
linguistic coherence rather than factual accuracy, often fail to clearly
separate truthful and hallucinated content. To this end, we propose the
Truthfulness Separator Vector (TSV), a lightweight and flexible steering vector
that reshapes the LLM's representation space during inference to enhance the
separation between truthful and hallucinated outputs, without altering model
parameters. Our two-stage framework first trains TSV on a small set of labeled
exemplars to form compact and well-separated clusters. It then augments the
exemplar set with unlabeled LLM generations, employing an optimal
transport-based algorithm for pseudo-labeling combined with a confidence-based
filtering process. Extensive experiments demonstrate that TSV achieves
state-of-the-art performance with minimal labeled data, exhibiting strong
generalization across datasets and providing a practical solution for
real-world LLM applications.Summary
AI-Generated Summary