ChatPaper.aiChatPaper

Schnittstellen nur bei Bedarf aufrufen: Adaptives Aufrufen für große Sprachmodelle in der Fragebeantwortung

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025
Autoren: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI

Zusammenfassung

Das kollaborative Paradigma von großen und kleinen Sprachmodellen (LMs) balanciert effektiv Leistung und Kosten, doch die zentrale Herausforderung liegt darin, den genauen Zeitpunkt der Aktivierung zu bestimmen, wenn Halluzinationen in kleinen LMs auftreten. Bisherige Optimierungsbemühungen konzentrierten sich hauptsächlich auf Nachbearbeitungstechniken, die vom Denkprozess der LMs getrennt waren, was zu hohen Rechenkosten und begrenzter Effektivität führte. In diesem Artikel schlagen wir ein praktisches Bewertungsmaß für die Aktivierung vor, genannt AttenHScore, das die Akkumulation und Ausbreitung von Halluzinationen während des Generierungsprozesses kleiner LMs berechnet und potenzielle Denkfehler kontinuierlich verstärkt. Durch die dynamische Anpassung des Detektionsschwellenwerts erreichen wir eine präzisere Echtzeitaktivierung großer LMs. Zusätzlich nutzen wir, unter Berücksichtigung der begrenzten Denkfähigkeit kleiner LMs, unsicherheitsbewusste Wissensreorganisation, um ihnen zu helfen, kritische Informationen aus verschiedenen Textabschnitten besser zu erfassen. Umfangreiche Experimente zeigen, dass unser AttenHScore die meisten Basismethoden in der Verbesserung der Echtzeit-Halluzinationserkennung über mehrere QA-Datensätze hinweg übertrifft, insbesondere bei der Bearbeitung komplexer Anfragen. Darüber hinaus eliminieren unsere Strategien die Notwendigkeit zusätzlicher Modelltrainings und zeigen Flexibilität bei der Anpassung an verschiedene transformerbasierte LMs.
English
The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.

Summary

AI-Generated Summary

PDF21May 7, 2025