ChatPaper.aiChatPaper

Entdeckung von Wissenslücken bei Sprachmodellen auf umfangreichen Wissensbasen

Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

March 30, 2025
Autoren: Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) verfügen über beeindruckende linguistische Fähigkeiten, scheitern jedoch oft daran, faktisches Wissen zuverlässig zu bewahren, was zu Halluzinationen und unzuverlässigen Ausgaben führt. Das Verständnis der Wissensdefizite von LLMs durch eine erschöpfende Bewertung gegen umfangreiche Wissensbasen ist rechnerisch unerschwinglich, insbesondere für Modelle mit geschlossenen Gewichten. Wir schlagen stochastischen Fehleranstieg (SEA) vor, ein skalierbares und effizientes Framework zur Entdeckung von Wissensdefiziten (Fehlern) in geschlossenen LLMs unter einem strengen Abfragebudget. Anstatt alle Wissenskandidaten naiv zu testen, formuliert SEA die Fehlerentdeckung als einen stochastischen Optimierungsprozess: Es ruft iterativ neue Kandidaten mit hohen Fehlerraten ab, indem es die semantische Ähnlichkeit zu zuvor beobachteten Fehlern nutzt. Um die Such effizienz und Abdeckung weiter zu verbessern, setzt SEA hierarchische Abrufe auf Dokument- und Absatzebene ein und konstruiert einen relationellen gerichteten azyklischen Graphen, um die Fehlerausbreitung zu modellieren und systematische Fehlermodi zu identifizieren. Empirisch deckt SEA 40,7-mal mehr Wissensfehler auf als Automated Capability Discovery und 26,7 % mehr als AutoBencher, während die Kosten pro Fehler um das 599-fache bzw. 9-fache reduziert werden. Die menschliche Bewertung bestätigt die hohe Qualität der generierten Fragen, während Ablations- und Konvergenzanalysen den Beitrag jeder Komponente in SEA validieren. Eine weitere Analyse der entdeckten Fehler zeigt korrelierte Fehlermuster über LLM-Familien hinweg und wiederkehrende Defizite, was die Notwendigkeit einer besseren Datenabdeckung und gezielten Feinabstimmung in der zukünftigen LLM-Entwicklung unterstreicht.
English
Large language models (LLMs) possess impressive linguistic capabilities but often fail to faithfully retain factual knowledge, leading to hallucinations and unreliable outputs. Understanding LLMs' knowledge deficiencies by exhaustively evaluating against full-scale knowledge bases is computationally prohibitive, especially for closed-weight models. We propose stochastic error ascent (SEA), a scalable and efficient framework for discovering knowledge deficiencies (errors) in closed-weight LLMs under a strict query budget. Rather than naively probing all knowledge candidates, SEA formulates error discovery as a stochastic optimization process: it iteratively retrieves new high-error candidates by leveraging the semantic similarity to previously observed failures. To further enhance search efficiency and coverage, SEA employs hierarchical retrieval across document and paragraph levels, and constructs a relation directed acyclic graph to model error propagation and identify systematic failure modes. Empirically, SEA uncovers 40.7x more knowledge errors than Automated Capability Discovery and 26.7% more than AutoBencher, while reducing the cost-per-error by 599x and 9x, respectively. Human evaluation confirms the high quality of generated questions, while ablation and convergence analyses validate the contribution of each component in SEA. Further analysis on the discovered errors reveals correlated failure patterns across LLM families and recurring deficits, highlighting the need for better data coverage and targeted fine-tuning in future LLM development.

Summary

AI-Generated Summary

PDF62April 2, 2025