Invocar Interfaces Solo Cuando Sea Necesario: Invocación Adaptativa para Modelos de Lenguaje de Gran Escala en Respuesta a Preguntas

Resumen

El paradigma colaborativo de modelos de lenguaje grandes y pequeños (LM, por sus siglas en inglés) equilibra eficazmente el rendimiento y el costo, aunque su desafío principal radica en identificar con precisión el momento de invocación cuando surgen alucinaciones en los LM pequeños. Los esfuerzos de optimización anteriores se centraron principalmente en técnicas de posprocesamiento, que estaban separadas del proceso de razonamiento de los LM, lo que resultó en altos costos computacionales y una efectividad limitada. En este artículo, proponemos una métrica práctica de evaluación de invocación llamada AttenHScore, que calcula la acumulación y propagación de alucinaciones durante el proceso de generación de los LM pequeños, amplificando continuamente los posibles errores de razonamiento. Al ajustar dinámicamente el umbral de detección, logramos una invocación en tiempo real más precisa de los LM grandes. Además, considerando la capacidad limitada de razonamiento de los LM pequeños, aprovechamos la reorganización de conocimiento consciente de la incertidumbre para ayudarlos a capturar mejor la información crítica de diferentes fragmentos de texto. Experimentos exhaustivos revelan que nuestro AttenHScore supera a la mayoría de los enfoques de referencia en la mejora de las capacidades de detección de alucinaciones en tiempo real en múltiples conjuntos de datos de preguntas y respuestas, especialmente al abordar consultas complejas. Además, nuestras estrategias eliminan la necesidad de entrenamiento adicional de modelos y muestran flexibilidad para adaptarse a diversos LM basados en transformadores.

English

The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.

Invocar Interfaces Solo Cuando Sea Necesario: Invocación Adaptativa para Modelos de Lenguaje de Gran Escala en Respuesta a Preguntas

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

Resumen

Support