Descubriendo las deficiencias de conocimiento en los modelos de lenguaje sobre bases de conocimiento masivas
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base
March 30, 2025
Autores: Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) poseen capacidades lingüísticas impresionantes, pero a menudo no logran retener de manera fiel el conocimiento factual, lo que lleva a alucinaciones y resultados poco confiables. Comprender las deficiencias de conocimiento de los LLMs mediante una evaluación exhaustiva contra bases de conocimiento a gran escala es computacionalmente prohibitivo, especialmente para modelos de pesos cerrados. Proponemos el ascenso estocástico de errores (SEA, por sus siglas en inglés), un marco escalable y eficiente para descubrir deficiencias de conocimiento (errores) en LLMs de pesos cerrados bajo un presupuesto estricto de consultas. En lugar de sondear de manera ingenua todos los candidatos de conocimiento, SEA formula el descubrimiento de errores como un proceso de optimización estocástica: recupera iterativamente nuevos candidatos de alto error aprovechando la similitud semántica con fallos previamente observados. Para mejorar aún más la eficiencia y cobertura de la búsqueda, SEA emplea recuperación jerárquica a nivel de documento y párrafo, y construye un grafo acíclico dirigido de relaciones para modelar la propagación de errores e identificar modos de fallo sistemáticos. Empíricamente, SEA descubre 40.7 veces más errores de conocimiento que Automated Capability Discovery y un 26.7% más que AutoBencher, mientras reduce el costo por error en 599 y 9 veces, respectivamente. La evaluación humana confirma la alta calidad de las preguntas generadas, mientras que los análisis de ablación y convergencia validan la contribución de cada componente en SEA. Un análisis adicional de los errores descubiertos revela patrones de fallo correlacionados entre familias de LLMs y déficits recurrentes, destacando la necesidad de una mejor cobertura de datos y ajustes específicos en el desarrollo futuro de LLMs.
English
Large language models (LLMs) possess impressive linguistic capabilities but
often fail to faithfully retain factual knowledge, leading to hallucinations
and unreliable outputs. Understanding LLMs' knowledge deficiencies by
exhaustively evaluating against full-scale knowledge bases is computationally
prohibitive, especially for closed-weight models. We propose stochastic error
ascent (SEA), a scalable and efficient framework for discovering knowledge
deficiencies (errors) in closed-weight LLMs under a strict query budget. Rather
than naively probing all knowledge candidates, SEA formulates error discovery
as a stochastic optimization process: it iteratively retrieves new high-error
candidates by leveraging the semantic similarity to previously observed
failures. To further enhance search efficiency and coverage, SEA employs
hierarchical retrieval across document and paragraph levels, and constructs a
relation directed acyclic graph to model error propagation and identify
systematic failure modes. Empirically, SEA uncovers 40.7x more knowledge errors
than Automated Capability Discovery and 26.7% more than AutoBencher, while
reducing the cost-per-error by 599x and 9x, respectively. Human evaluation
confirms the high quality of generated questions, while ablation and
convergence analyses validate the contribution of each component in SEA.
Further analysis on the discovered errors reveals correlated failure patterns
across LLM families and recurring deficits, highlighting the need for better
data coverage and targeted fine-tuning in future LLM development.Summary
AI-Generated Summary