Invocare le Interfacce Solo Quando Necessario: Invocazione Adattiva per Modelli Linguistici di Grandi Dimensioni nel Rispondere a Domande
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
May 5, 2025
Autori: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI
Abstract
Il paradigma collaborativo tra modelli linguistici (LM) di grandi e piccole dimensioni bilancia efficacemente prestazioni e costi, ma la sua sfida cruciale risiede nell'individuare con precisione il momento di invocazione quando si verificano allucinazioni nei piccoli LM. I precedenti sforzi di ottimizzazione si sono concentrati principalmente su tecniche di post-elaborazione, separate dal processo di ragionamento dei LM, risultando in elevati costi computazionali e un'efficacia limitata. In questo articolo, proponiamo una metrica pratica di valutazione dell'invocazione chiamata AttenHScore, che calcola l'accumulo e la propagazione delle allucinazioni durante il processo di generazione dei piccoli LM, amplificando continuamente potenziali errori di ragionamento. Regolando dinamicamente la soglia di rilevamento, otteniamo un'invocazione in tempo reale più accurata dei grandi LM. Inoltre, considerando la capacità di ragionamento limitata dei piccoli LM, sfruttiamo una riorganizzazione della conoscenza consapevole dell'incertezza per aiutarli a catturare meglio le informazioni critiche da diversi frammenti di testo. Esperimenti estensivi rivelano che il nostro AttenHScore supera la maggior parte dei baseline nel migliorare le capacità di rilevamento delle allucinazioni in tempo reale su più dataset di domande e risposte, specialmente quando si affrontano query complesse. Inoltre, le nostre strategie eliminano la necessità di ulteriori addestramenti del modello e mostrano flessibilità nell'adattarsi a vari LM basati su transformer.
English
The collaborative paradigm of large and small language models (LMs)
effectively balances performance and cost, yet its pivotal challenge lies in
precisely pinpointing the moment of invocation when hallucinations arise in
small LMs. Previous optimization efforts primarily focused on post-processing
techniques, which were separate from the reasoning process of LMs, resulting in
high computational costs and limited effectiveness. In this paper, we propose a
practical invocation evaluation metric called AttenHScore, which calculates the
accumulation and propagation of hallucinations during the generation process of
small LMs, continuously amplifying potential reasoning errors. By dynamically
adjusting the detection threshold, we achieve more accurate real-time
invocation of large LMs. Additionally, considering the limited reasoning
capacity of small LMs, we leverage uncertainty-aware knowledge reorganization
to assist them better capture critical information from different text chunks.
Extensive experiments reveal that our AttenHScore outperforms most baseline in
enhancing real-time hallucination detection capabilities across multiple QA
datasets, especially when addressing complex queries. Moreover, our strategies
eliminate the need for additional model training and display flexibility in
adapting to various transformer-based LMs.