ChatPaper.aiChatPaper

Interfaces Alleen Aanroepen Wanneer Nodig: Adaptieve Aanroeping voor Grote Taalmodellen in Vraagbeantwoording

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025
Auteurs: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI

Samenvatting

Het collaboratieve paradigma van grote en kleine taalmodellen (LMs) balanceert effectief prestaties en kosten, maar de cruciale uitdaging ligt in het nauwkeurig bepalen van het moment van aanroeping wanneer hallucinaties optreden in kleine LMs. Eerdere optimalisatie-inspanningen richtten zich voornamelijk op nabewerkingstechnieken, die los stonden van het redeneerproces van LMs, wat resulteerde in hoge rekenkosten en beperkte effectiviteit. In dit artikel stellen we een praktische aanroepingsevaluatiemetriek voor, genaamd AttenHScore, die de accumulatie en verspreiding van hallucinaties tijdens het generatieproces van kleine LMs berekent, waarbij potentiële redeneerfouten continu worden versterkt. Door de detectiedrempel dynamisch aan te passen, bereiken we een nauwkeurigere realtime aanroeping van grote LMs. Daarnaast, rekening houdend met de beperkte redeneercapaciteit van kleine LMs, maken we gebruik van onzekerheidsbewuste kennisherorganisatie om hen te helpen cruciale informatie uit verschillende tekstsegmenten beter te vatten. Uitgebreide experimenten tonen aan dat onze AttenHScore de meeste baseline-methoden overtreft in het verbeteren van realtime hallucinatiedetectiecapaciteiten over meerdere QA-datasets, vooral bij het behandelen van complexe queries. Bovendien vereisen onze strategieën geen aanvullende modeltraining en tonen ze flexibiliteit in het aanpassen aan verschillende transformer-gebaseerde LMs.
English
The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.
PDF21May 7, 2025