Incertidumbre a Nivel de Consulta en Modelos de Lenguaje de Gran Escala
Query-Level Uncertainty in Large Language Models
June 11, 2025
Autores: Lihu Chen, Gaël Varoquaux
cs.AI
Resumen
Es crucial que los Modelos de Lenguaje a Gran Escala (LLM) sean conscientes de los límites de su conocimiento y del mecanismo para identificar consultas conocidas y desconocidas. Este tipo de conciencia puede ayudar a los modelos a realizar inferencias adaptativas, como invocar RAG (Recuperación Aumentada por Generación), participar en un pensamiento lento y profundo, o adoptar mecanismos de abstención, lo cual es beneficioso para el desarrollo de IA eficiente y confiable. En este trabajo, proponemos un método para detectar los límites del conocimiento mediante la Incertidumbre a Nivel de Consulta, que tiene como objetivo determinar si el modelo es capaz de abordar una consulta dada sin generar ningún token. Para ello, introducimos un método novedoso y sin necesidad de entrenamiento llamado Confianza Interna, que aprovecha autoevaluaciones a través de capas y tokens. Los resultados empíricos en tareas de preguntas y respuestas factuales y de razonamiento matemático demuestran que nuestra confianza interna puede superar a varias líneas base. Además, mostramos que nuestro método propuesto puede utilizarse para RAG eficiente y cascadas de modelos, lo que permite reducir los costos de inferencia manteniendo el rendimiento.
English
It is important for Large Language Models to be aware of the boundary of
their knowledge, the mechanism of identifying known and unknown queries. This
type of awareness can help models perform adaptive inference, such as invoking
RAG, engaging in slow and deep thinking, or adopting the abstention mechanism,
which is beneficial to the development of efficient and trustworthy AI. In this
work, we propose a method to detect knowledge boundaries via Query-Level
Uncertainty, which aims to determine if the model is able to address a given
query without generating any tokens. To this end, we introduce a novel and
training-free method called Internal Confidence, which leverages
self-evaluations across layers and tokens. Empirical results on both factual QA
and mathematical reasoning tasks demonstrate that our internal confidence can
outperform several baselines. Furthermore, we showcase that our proposed method
can be used for efficient RAG and model cascading, which is able to reduce
inference costs while maintaining performance.