Неопределенность на уровне запроса в крупных языковых моделях
Query-Level Uncertainty in Large Language Models
June 11, 2025
Авторы: Lihu Chen, Gaël Varoquaux
cs.AI
Аннотация
Для крупных языковых моделей важно осознавать границы своих знаний и механизмы идентификации известных и неизвестных запросов. Такое осознание может помочь моделям выполнять адаптивный вывод, например, активировать RAG (Retrieval-Augmented Generation), включаться в медленное и глубокое размышление или использовать механизм воздержания, что способствует развитию эффективного и надежного ИИ. В данной работе мы предлагаем метод обнаружения границ знаний через неопределенность на уровне запросов (Query-Level Uncertainty), который направлен на определение способности модели ответить на заданный запрос без генерации токенов. Для этого мы вводим новый метод, не требующий обучения, под названием Internal Confidence, который использует самооценки на уровне слоев и токенов. Эмпирические результаты на задачах фактологического QA и математического рассуждения показывают, что наш метод Internal Confidence превосходит несколько базовых подходов. Кроме того, мы демонстрируем, что предложенный метод может быть использован для эффективного применения RAG и каскадирования моделей, что позволяет снизить затраты на вывод, сохраняя при этом производительность.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.