대규모 언어 모델에서의 질의 수준 불확실성
Query-Level Uncertainty in Large Language Models
June 11, 2025
저자: Lihu Chen, Gaël Varoquaux
cs.AI
초록
대규모 언어 모델은 자신의 지식 경계를 인식하고, 알려진 질의와 알려지지 않은 질의를 식별하는 메커니즘을 갖추는 것이 중요하다. 이러한 인식은 모델이 RAG(RAG)를 호출하거나, 느리고 깊은 사고를 수행하거나, 기권 메커니즘을 채택하는 등 적응형 추론을 수행하는 데 도움을 줄 수 있으며, 이는 효율적이고 신뢰할 수 있는 AI 개발에 유익하다. 본 연구에서는 주어진 질의를 토큰을 생성하지 않고도 처리할 수 있는지 여부를 판단하기 위해 질의 수준 불확실성(Query-Level Uncertainty)을 통해 지식 경계를 탐지하는 방법을 제안한다. 이를 위해, 우리는 레이어와 토큰 간의 자기 평가를 활용한 새로운 학습이 필요 없는 방법인 내부 신뢰도(Internal Confidence)를 소개한다. 사실 기반 질의응답(FAQ) 및 수학적 추론 작업에 대한 실험 결과는 우리의 내부 신뢰도가 여러 기준선을 능가할 수 있음을 보여준다. 또한, 제안된 방법이 효율적인 RAG 및 모델 캐스케이딩에 사용될 수 있으며, 이는 성능을 유지하면서 추론 비용을 줄일 수 있음을 입증한다.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.