Incertitude au niveau des requêtes dans les grands modèles de langage
Query-Level Uncertainty in Large Language Models
June 11, 2025
Auteurs: Lihu Chen, Gaël Varoquaux
cs.AI
Résumé
Il est crucial que les grands modèles de langage soient conscients des limites de leurs connaissances et du mécanisme d'identification des requêtes connues et inconnues. Ce type de conscience peut aider les modèles à effectuer des inférences adaptatives, telles que l'invocation de RAG (Retrieval-Augmented Generation), l'engagement dans une réflexion lente et approfondie, ou l'adoption d'un mécanisme d'abstention, ce qui est bénéfique pour le développement d'une IA efficace et digne de confiance. Dans ce travail, nous proposons une méthode pour détecter les limites des connaissances via l'incertitude au niveau de la requête, qui vise à déterminer si le modèle est capable de répondre à une requête donnée sans générer de tokens. À cette fin, nous introduisons une méthode nouvelle et sans entraînement appelée Confiance Interne, qui exploite les auto-évaluations à travers les couches et les tokens. Les résultats empiriques sur des tâches de questions-réponses factuelles et de raisonnement mathématique démontrent que notre confiance interne surpasse plusieurs méthodes de référence. De plus, nous montrons que notre méthode proposée peut être utilisée pour un RAG efficace et un enchaînement de modèles, permettant de réduire les coûts d'inférence tout en maintenant les performances.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.