Invocar Interfaces Apenas Quando Necessário: Invocação Adaptativa para Modelos de Linguagem de Grande Escala em Resposta a Perguntas

Resumo

O paradigma colaborativo entre modelos de linguagem (LMs) grandes e pequenos equilibra efetivamente desempenho e custo, mas seu desafio crucial reside em identificar com precisão o momento de invocação quando alucinações surgem em LMs pequenos. Esforços anteriores de otimização concentraram-se principalmente em técnicas de pós-processamento, que eram separadas do processo de raciocínio dos LMs, resultando em altos custos computacionais e eficácia limitada. Neste artigo, propomos uma métrica prática de avaliação de invocação chamada AttenHScore, que calcula o acúmulo e a propagação de alucinações durante o processo de geração de LMs pequenos, amplificando continuamente possíveis erros de raciocínio. Ao ajustar dinamicamente o limiar de detecção, alcançamos uma invocação em tempo real mais precisa de LMs grandes. Além disso, considerando a capacidade limitada de raciocínio dos LMs pequenos, utilizamos a reorganização de conhecimento com consciência de incerteza para ajudá-los a capturar melhor informações críticas de diferentes segmentos de texto. Experimentos extensivos revelam que nosso AttenHScore supera a maioria das baselines na melhoria das capacidades de detecção de alucinações em tempo real em vários conjuntos de dados de perguntas e respostas (QA), especialmente ao lidar com consultas complexas. Além disso, nossas estratégias eliminam a necessidade de treinamento adicional de modelos e demonstram flexibilidade na adaptação a diversos LMs baseados em transformadores.

English

The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.

Invocar Interfaces Apenas Quando Necessário: Invocação Adaptativa para Modelos de Linguagem de Grande Escala em Resposta a Perguntas

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

Resumo

Support