Query-Level Onzekerheid in Grote Taalmodellen
Query-Level Uncertainty in Large Language Models
June 11, 2025
Auteurs: Lihu Chen, Gaël Varoquaux
cs.AI
Samenvatting
Het is belangrijk dat grote taalmodelen zich bewust zijn van de grenzen van hun kennis en het mechanisme om bekende en onbekende vragen te identificeren. Dit type bewustzijn kan modellen helpen om adaptieve inferentie uit te voeren, zoals het aanroepen van RAG, het aangaan van langzaam en diep nadenken, of het toepassen van het onthoudingsmechanisme, wat gunstig is voor de ontwikkeling van efficiënte en betrouwbare AI. In dit werk stellen we een methode voor om kennisgrenzen te detecteren via Query-Level Onzekerheid, die tot doel heeft te bepalen of het model in staat is een gegeven vraag te beantwoorden zonder tokens te genereren. Hiertoe introduceren we een nieuwe en trainingsvrije methode genaamd Interne Betrouwbaarheid, die gebruikmaakt van zelfevaluaties over lagen en tokens. Empirische resultaten op zowel feitelijke QA- als wiskundige redeneertaken tonen aan dat onze interne betrouwbaarheid verschillende baselines kan overtreffen. Bovendien laten we zien dat onze voorgestelde methode kan worden gebruikt voor efficiënte RAG en modelcascadering, wat in staat is om inferentiekosten te verlagen terwijl de prestaties behouden blijven.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.