Incerteza em Nível de Consulta em Modelos de Linguagem de Grande Escala
Query-Level Uncertainty in Large Language Models
June 11, 2025
Autores: Lihu Chen, Gaël Varoquaux
cs.AI
Resumo
É crucial que os Modelos de Linguagem de Grande Escala (LLMs) estejam cientes dos limites de seu conhecimento e do mecanismo de identificação de consultas conhecidas e desconhecidas. Esse tipo de consciência pode ajudar os modelos a realizar inferências adaptativas, como invocar o RAG (Retrieval-Augmented Generation), engajar-se em pensamentos lentos e profundos, ou adotar o mecanismo de abstenção, o que é benéfico para o desenvolvimento de IA eficiente e confiável. Neste trabalho, propomos um método para detectar os limites do conhecimento por meio da Incerteza no Nível da Consulta, que visa determinar se o modelo é capaz de responder a uma consulta específica sem gerar nenhum token. Para isso, introduzimos um método novo e livre de treinamento chamado Confiança Interna, que aproveita autoavaliações entre camadas e tokens. Resultados empíricos em tarefas de QA factual e raciocínio matemático demonstram que nossa confiança interna pode superar várias baselines. Além disso, mostramos que o método proposto pode ser usado para RAG eficiente e cascateamento de modelos, o que é capaz de reduzir os custos de inferência enquanto mantém o desempenho.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.