Incertitude au niveau des requêtes dans les grands modèles de langage

papers.abstract

Il est crucial que les grands modèles de langage soient conscients des limites de leurs connaissances et du mécanisme d'identification des requêtes connues et inconnues. Ce type de conscience peut aider les modèles à effectuer des inférences adaptatives, telles que l'invocation de RAG (Retrieval-Augmented Generation), l'engagement dans une réflexion lente et approfondie, ou l'adoption d'un mécanisme d'abstention, ce qui est bénéfique pour le développement d'une IA efficace et digne de confiance. Dans ce travail, nous proposons une méthode pour détecter les limites des connaissances via l'incertitude au niveau de la requête, qui vise à déterminer si le modèle est capable de répondre à une requête donnée sans générer de tokens. À cette fin, nous introduisons une méthode nouvelle et sans entraînement appelée Confiance Interne, qui exploite les auto-évaluations à travers les couches et les tokens. Les résultats empiriques sur des tâches de questions-réponses factuelles et de raisonnement mathématique démontrent que notre confiance interne surpasse plusieurs méthodes de référence. De plus, nous montrons que notre méthode proposée peut être utilisée pour un RAG efficace et un enchaînement de modèles, permettant de réduire les coûts d'inférence tout en maintenant les performances.

English

It is important for Large Language Models to be aware of the boundary of their knowledge, the mechanism of identifying known and unknown queries. This type of awareness can help models perform adaptive inference, such as invoking RAG, engaging in slow and deep thinking, or adopting the abstention mechanism, which is beneficial to the development of efficient and trustworthy AI. In this work, we propose a method to detect knowledge boundaries via Query-Level Uncertainty, which aims to determine if the model is able to address a given query without generating any tokens. To this end, we introduce a novel and training-free method called Internal Confidence, which leverages self-evaluations across layers and tokens. Empirical results on both factual QA and mathematical reasoning tasks demonstrate that our internal confidence can outperform several baselines. Furthermore, we showcase that our proposed method can be used for efficient RAG and model cascading, which is able to reduce inference costs while maintaining performance.

Incertitude au niveau des requêtes dans les grands modèles de langage

Query-Level Uncertainty in Large Language Models

papers.abstract

Support