ChatPaper.aiChatPaper

Descobrindo Deficiências de Conhecimento em Modelos de Linguagem sobre Bases de Conhecimento Maciças

Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base

March 30, 2025
Autores: Linxin Song, Xuwei Ding, Jieyu Zhang, Taiwei Shi, Ryotaro Shimizu, Rahul Gupta, Yang Liu, Jian Kang, Jieyu Zhao
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) possuem capacidades linguísticas impressionantes, mas frequentemente falham em reter fielmente conhecimento factual, levando a alucinações e saídas não confiáveis. Compreender as deficiências de conhecimento dos LLMs por meio de avaliação exaustiva contra bases de conhecimento em larga escala é computacionalmente proibitivo, especialmente para modelos de pesos fechados. Propomos o Stochastic Error Ascent (SEA), uma estrutura escalável e eficiente para descobrir deficiências de conhecimento (erros) em LLMs de pesos fechados sob um orçamento rigoroso de consultas. Em vez de sondar ingenuamente todos os candidatos de conhecimento, o SEA formula a descoberta de erros como um processo de otimização estocástica: ele recupera iterativamente novos candidatos de alto erro aproveitando a similaridade semântica com falhas previamente observadas. Para aprimorar ainda mais a eficiência e a cobertura da busca, o SEA emprega recuperação hierárquica em níveis de documento e parágrafo, e constrói um grafo acíclico direcionado de relações para modelar a propagação de erros e identificar modos de falha sistemáticos. Empiricamente, o SEA descobre 40,7 vezes mais erros de conhecimento do que o Automated Capability Discovery e 26,7% mais do que o AutoBencher, enquanto reduz o custo por erro em 599 vezes e 9 vezes, respectivamente. A avaliação humana confirma a alta qualidade das perguntas geradas, enquanto análises de ablação e convergência validam a contribuição de cada componente no SEA. Uma análise adicional dos erros descobertos revela padrões de falha correlacionados entre famílias de LLMs e déficits recorrentes, destacando a necessidade de melhor cobertura de dados e ajuste fino direcionado no desenvolvimento futuro de LLMs.
English
Large language models (LLMs) possess impressive linguistic capabilities but often fail to faithfully retain factual knowledge, leading to hallucinations and unreliable outputs. Understanding LLMs' knowledge deficiencies by exhaustively evaluating against full-scale knowledge bases is computationally prohibitive, especially for closed-weight models. We propose stochastic error ascent (SEA), a scalable and efficient framework for discovering knowledge deficiencies (errors) in closed-weight LLMs under a strict query budget. Rather than naively probing all knowledge candidates, SEA formulates error discovery as a stochastic optimization process: it iteratively retrieves new high-error candidates by leveraging the semantic similarity to previously observed failures. To further enhance search efficiency and coverage, SEA employs hierarchical retrieval across document and paragraph levels, and constructs a relation directed acyclic graph to model error propagation and identify systematic failure modes. Empirically, SEA uncovers 40.7x more knowledge errors than Automated Capability Discovery and 26.7% more than AutoBencher, while reducing the cost-per-error by 599x and 9x, respectively. Human evaluation confirms the high quality of generated questions, while ablation and convergence analyses validate the contribution of each component in SEA. Further analysis on the discovered errors reveals correlated failure patterns across LLM families and recurring deficits, highlighting the need for better data coverage and targeted fine-tuning in future LLM development.

Summary

AI-Generated Summary

PDF62April 2, 2025