Invoquer les interfaces uniquement lorsque nécessaire : invocation adaptative pour les modèles de langage de grande taille dans les systèmes de réponse aux questions
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
May 5, 2025
papers.authors: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI
papers.abstract
Le paradigme collaboratif des grands et petits modèles de langage (LMs) équilibre efficacement performance et coût, mais son défi majeur réside dans la détermination précise du moment d'invocation lorsque des hallucinations surviennent dans les petits LMs. Les efforts d'optimisation précédents se concentraient principalement sur des techniques de post-traitement, distinctes du processus de raisonnement des LMs, entraînant des coûts de calcul élevés et une efficacité limitée. Dans cet article, nous proposons une métrique pratique d'évaluation de l'invocation appelée AttenHScore, qui calcule l'accumulation et la propagation des hallucinations pendant le processus de génération des petits LMs, amplifiant continuellement les erreurs de raisonnement potentielles. En ajustant dynamiquement le seuil de détection, nous obtenons une invocation en temps réel plus précise des grands LMs. De plus, en tenant compte de la capacité de raisonnement limitée des petits LMs, nous exploitons une réorganisation des connaissances prenant en compte l'incertitude pour les aider à mieux capturer les informations critiques provenant de différents segments de texte. Des expériences approfondies révèlent que notre AttenHScore surpasse la plupart des méthodes de référence en améliorant les capacités de détection d'hallucinations en temps réel sur plusieurs ensembles de données de questions-réponses, en particulier lors de la résolution de requêtes complexes. Par ailleurs, nos stratégies éliminent le besoin d'un entraînement supplémentaire du modèle et montrent une flexibilité dans l'adaptation à divers LMs basés sur des transformateurs.
English
The collaborative paradigm of large and small language models (LMs)
effectively balances performance and cost, yet its pivotal challenge lies in
precisely pinpointing the moment of invocation when hallucinations arise in
small LMs. Previous optimization efforts primarily focused on post-processing
techniques, which were separate from the reasoning process of LMs, resulting in
high computational costs and limited effectiveness. In this paper, we propose a
practical invocation evaluation metric called AttenHScore, which calculates the
accumulation and propagation of hallucinations during the generation process of
small LMs, continuously amplifying potential reasoning errors. By dynamically
adjusting the detection threshold, we achieve more accurate real-time
invocation of large LMs. Additionally, considering the limited reasoning
capacity of small LMs, we leverage uncertainty-aware knowledge reorganization
to assist them better capture critical information from different text chunks.
Extensive experiments reveal that our AttenHScore outperforms most baseline in
enhancing real-time hallucination detection capabilities across multiple QA
datasets, especially when addressing complex queries. Moreover, our strategies
eliminate the need for additional model training and display flexibility in
adapting to various transformer-based LMs.