Invocar Interfaces Apenas Quando Necessário: Invocação Adaptativa para Modelos de Linguagem de Grande Escala em Resposta a Perguntas
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
May 5, 2025
Autores: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI
Resumo
O paradigma colaborativo entre modelos de linguagem (LMs) grandes e pequenos equilibra efetivamente desempenho e custo, mas seu desafio crucial reside em identificar com precisão o momento de invocação quando alucinações surgem em LMs pequenos. Esforços anteriores de otimização concentraram-se principalmente em técnicas de pós-processamento, que eram separadas do processo de raciocínio dos LMs, resultando em altos custos computacionais e eficácia limitada. Neste artigo, propomos uma métrica prática de avaliação de invocação chamada AttenHScore, que calcula o acúmulo e a propagação de alucinações durante o processo de geração de LMs pequenos, amplificando continuamente possíveis erros de raciocínio. Ao ajustar dinamicamente o limiar de detecção, alcançamos uma invocação em tempo real mais precisa de LMs grandes. Além disso, considerando a capacidade limitada de raciocínio dos LMs pequenos, utilizamos a reorganização de conhecimento com consciência de incerteza para ajudá-los a capturar melhor informações críticas de diferentes segmentos de texto. Experimentos extensivos revelam que nosso AttenHScore supera a maioria das baselines na melhoria das capacidades de detecção de alucinações em tempo real em vários conjuntos de dados de perguntas e respostas (QA), especialmente ao lidar com consultas complexas. Além disso, nossas estratégias eliminam a necessidade de treinamento adicional de modelos e demonstram flexibilidade na adaptação a diversos LMs baseados em transformadores.
English
The collaborative paradigm of large and small language models (LMs)
effectively balances performance and cost, yet its pivotal challenge lies in
precisely pinpointing the moment of invocation when hallucinations arise in
small LMs. Previous optimization efforts primarily focused on post-processing
techniques, which were separate from the reasoning process of LMs, resulting in
high computational costs and limited effectiveness. In this paper, we propose a
practical invocation evaluation metric called AttenHScore, which calculates the
accumulation and propagation of hallucinations during the generation process of
small LMs, continuously amplifying potential reasoning errors. By dynamically
adjusting the detection threshold, we achieve more accurate real-time
invocation of large LMs. Additionally, considering the limited reasoning
capacity of small LMs, we leverage uncertainty-aware knowledge reorganization
to assist them better capture critical information from different text chunks.
Extensive experiments reveal that our AttenHScore outperforms most baseline in
enhancing real-time hallucination detection capabilities across multiple QA
datasets, especially when addressing complex queries. Moreover, our strategies
eliminate the need for additional model training and display flexibility in
adapting to various transformer-based LMs.