ChatPaper.aiChatPaper

Incertezza a Livello di Query nei Modelli Linguistici di Grande Dimensione

Query-Level Uncertainty in Large Language Models

June 11, 2025
Autori: Lihu Chen, Gaël Varoquaux
cs.AI

Abstract

È fondamentale che i Modelli Linguistici di Grandi Dimensioni siano consapevoli dei limiti della loro conoscenza e del meccanismo per identificare query note e sconosciute. Questo tipo di consapevolezza può aiutare i modelli a eseguire inferenze adattive, come l'invocazione di RAG, l'ingaggio in un pensiero lento e profondo o l'adozione del meccanismo di astensione, il che è vantaggioso per lo sviluppo di IA efficienti e affidabili. In questo lavoro, proponiamo un metodo per rilevare i confini della conoscenza tramite l'Incertezza a Livello di Query, che mira a determinare se il modello è in grado di affrontare una determinata query senza generare alcun token. A tal fine, introduciamo un metodo nuovo e privo di addestramento chiamato Fiducia Interna, che sfrutta autovalutazioni attraverso i livelli e i token. I risultati empirici su compiti di QA fattuale e di ragionamento matematico dimostrano che la nostra fiducia interna può superare diverse baseline. Inoltre, mostriamo che il metodo proposto può essere utilizzato per un RAG efficiente e il cascading di modelli, in grado di ridurre i costi di inferenza mantenendo le prestazioni.
English
It is important for Large Language Models to be aware of the boundary of their knowledge, the mechanism of identifying known and unknown queries. This type of awareness can help models perform adaptive inference, such as invoking RAG, engaging in slow and deep thinking, or adopting the abstention mechanism, which is beneficial to the development of efficient and trustworthy AI. In this work, we propose a method to detect knowledge boundaries via Query-Level Uncertainty, which aims to determine if the model is able to address a given query without generating any tokens. To this end, we introduce a novel and training-free method called Internal Confidence, which leverages self-evaluations across layers and tokens. Empirical results on both factual QA and mathematical reasoning tasks demonstrate that our internal confidence can outperform several baselines. Furthermore, we showcase that our proposed method can be used for efficient RAG and model cascading, which is able to reduce inference costs while maintaining performance.
PDF22June 12, 2025