Incertidumbre a Nivel de Consulta en Modelos de Lenguaje de Gran Escala

Resumen

Es crucial que los Modelos de Lenguaje a Gran Escala (LLM) sean conscientes de los límites de su conocimiento y del mecanismo para identificar consultas conocidas y desconocidas. Este tipo de conciencia puede ayudar a los modelos a realizar inferencias adaptativas, como invocar RAG (Recuperación Aumentada por Generación), participar en un pensamiento lento y profundo, o adoptar mecanismos de abstención, lo cual es beneficioso para el desarrollo de IA eficiente y confiable. En este trabajo, proponemos un método para detectar los límites del conocimiento mediante la Incertidumbre a Nivel de Consulta, que tiene como objetivo determinar si el modelo es capaz de abordar una consulta dada sin generar ningún token. Para ello, introducimos un método novedoso y sin necesidad de entrenamiento llamado Confianza Interna, que aprovecha autoevaluaciones a través de capas y tokens. Los resultados empíricos en tareas de preguntas y respuestas factuales y de razonamiento matemático demuestran que nuestra confianza interna puede superar a varias líneas base. Además, mostramos que nuestro método propuesto puede utilizarse para RAG eficiente y cascadas de modelos, lo que permite reducir los costos de inferencia manteniendo el rendimiento.

English

It is important for Large Language Models to be aware of the boundary of their knowledge, the mechanism of identifying known and unknown queries. This type of awareness can help models perform adaptive inference, such as invoking RAG, engaging in slow and deep thinking, or adopting the abstention mechanism, which is beneficial to the development of efficient and trustworthy AI. In this work, we propose a method to detect knowledge boundaries via Query-Level Uncertainty, which aims to determine if the model is able to address a given query without generating any tokens. To this end, we introduce a novel and training-free method called Internal Confidence, which leverages self-evaluations across layers and tokens. Empirical results on both factual QA and mathematical reasoning tasks demonstrate that our internal confidence can outperform several baselines. Furthermore, we showcase that our proposed method can be used for efficient RAG and model cascading, which is able to reduce inference costs while maintaining performance.

Incertidumbre a Nivel de Consulta en Modelos de Lenguaje de Gran Escala

Query-Level Uncertainty in Large Language Models

Resumen

Support