ChatPaper.aiChatPaper

Invocare le Interfacce Solo Quando Necessario: Invocazione Adattiva per Modelli Linguistici di Grandi Dimensioni nel Rispondere a Domande

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025
Autori: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI

Abstract

Il paradigma collaborativo tra modelli linguistici (LM) di grandi e piccole dimensioni bilancia efficacemente prestazioni e costi, ma la sua sfida cruciale risiede nell'individuare con precisione il momento di invocazione quando si verificano allucinazioni nei piccoli LM. I precedenti sforzi di ottimizzazione si sono concentrati principalmente su tecniche di post-elaborazione, separate dal processo di ragionamento dei LM, risultando in elevati costi computazionali e un'efficacia limitata. In questo articolo, proponiamo una metrica pratica di valutazione dell'invocazione chiamata AttenHScore, che calcola l'accumulo e la propagazione delle allucinazioni durante il processo di generazione dei piccoli LM, amplificando continuamente potenziali errori di ragionamento. Regolando dinamicamente la soglia di rilevamento, otteniamo un'invocazione in tempo reale più accurata dei grandi LM. Inoltre, considerando la capacità di ragionamento limitata dei piccoli LM, sfruttiamo una riorganizzazione della conoscenza consapevole dell'incertezza per aiutarli a catturare meglio le informazioni critiche da diversi frammenti di testo. Esperimenti estensivi rivelano che il nostro AttenHScore supera la maggior parte dei baseline nel migliorare le capacità di rilevamento delle allucinazioni in tempo reale su più dataset di domande e risposte, specialmente quando si affrontano query complesse. Inoltre, le nostre strategie eliminano la necessità di ulteriori addestramenti del modello e mostrano flessibilità nell'adattarsi a vari LM basati su transformer.
English
The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.
PDF21May 7, 2025