Découvrir les lacunes de connaissances des modèles de langage sur une base de connaissances massive
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base
March 30, 2025
Auteurs: Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
cs.AI
Résumé
Les grands modèles de langage (LLMs) possèdent des capacités linguistiques impressionnantes, mais échouent souvent à retenir fidèlement les connaissances factuelles, ce qui entraîne des hallucinations et des sorties peu fiables. Comprendre les lacunes de connaissances des LLMs en les évaluant exhaustivement par rapport à des bases de connaissances complètes est prohibitif en termes de calcul, en particulier pour les modèles à poids fermés. Nous proposons l'ascension stochastique des erreurs (SEA), un cadre évolutif et efficace pour découvrir les lacunes de connaissances (erreurs) dans les LLMs à poids fermés sous un budget de requêtes strict. Plutôt que de sonder naïvement tous les candidats de connaissances, SEA formule la découverte d'erreurs comme un processus d'optimisation stochastique : il récupère itérativement de nouveaux candidats à haute erreur en exploitant la similarité sémantique avec les échecs précédemment observés. Pour améliorer encore l'efficacité et la couverture de la recherche, SEA utilise une récupération hiérarchique aux niveaux du document et du paragraphe, et construit un graphe acyclique dirigé de relations pour modéliser la propagation des erreurs et identifier les modes d'échec systématiques. Empiriquement, SEA découvre 40,7 fois plus d'erreurs de connaissances que la Découverte Automatisée des Capacités et 26,7 % de plus qu'AutoBencher, tout en réduisant le coût par erreur de 599 fois et 9 fois, respectivement. L'évaluation humaine confirme la haute qualité des questions générées, tandis que les analyses d'ablation et de convergence valident la contribution de chaque composant de SEA. Une analyse plus approfondie des erreurs découvertes révèle des modèles d'échec corrélés à travers les familles de LLMs et des déficits récurrents, mettant en évidence la nécessité d'une meilleure couverture des données et d'un réglage fin ciblé dans le développement futur des LLMs.
English
Large language models (LLMs) possess impressive linguistic capabilities but
often fail to faithfully retain factual knowledge, leading to hallucinations
and unreliable outputs. Understanding LLMs' knowledge deficiencies by
exhaustively evaluating against full-scale knowledge bases is computationally
prohibitive, especially for closed-weight models. We propose stochastic error
ascent (SEA), a scalable and efficient framework for discovering knowledge
deficiencies (errors) in closed-weight LLMs under a strict query budget. Rather
than naively probing all knowledge candidates, SEA formulates error discovery
as a stochastic optimization process: it iteratively retrieves new high-error
candidates by leveraging the semantic similarity to previously observed
failures. To further enhance search efficiency and coverage, SEA employs
hierarchical retrieval across document and paragraph levels, and constructs a
relation directed acyclic graph to model error propagation and identify
systematic failure modes. Empirically, SEA uncovers 40.7x more knowledge errors
than Automated Capability Discovery and 26.7% more than AutoBencher, while
reducing the cost-per-error by 599x and 9x, respectively. Human evaluation
confirms the high quality of generated questions, while ablation and
convergence analyses validate the contribution of each component in SEA.
Further analysis on the discovered errors reveals correlated failure patterns
across LLM families and recurring deficits, highlighting the need for better
data coverage and targeted fine-tuning in future LLM development.Summary
AI-Generated Summary