ChatPaper.aiChatPaper

Вызывайте интерфейсы только при необходимости: адаптивный вызов для крупных языковых моделей в задачах ответов на вопросы

Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025
Авторы: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI

Аннотация

Коллаборативная парадигма больших и малых языковых моделей (LM) эффективно балансирует производительность и затраты, однако ключевая проблема заключается в точном определении момента вызова, когда в малых LM возникают галлюцинации. Предыдущие усилия по оптимизации в основном сосредотачивались на постобработке, которая была отделена от процесса рассуждения LM, что приводило к высоким вычислительным затратам и ограниченной эффективности. В данной статье мы предлагаем практическую метрику оценки вызова под названием AttenHScore, которая вычисляет накопление и распространение галлюцинаций в процессе генерации малых LM, непрерывно усиливая потенциальные ошибки рассуждения. Динамически регулируя порог обнаружения, мы достигаем более точного вызова больших LM в реальном времени. Кроме того, учитывая ограниченные способности малых LM к рассуждению, мы используем реорганизацию знаний с учетом неопределенности, чтобы помочь им лучше улавливать ключевую информацию из различных текстовых фрагментов. Многочисленные эксперименты показывают, что наш AttenHScore превосходит большинство базовых методов в улучшении возможностей обнаружения галлюцинаций в реальном времени на множестве QA-датасетов, особенно при работе со сложными запросами. Более того, наши стратегии устраняют необходимость в дополнительном обучении моделей и демонстрируют гибкость в адаптации к различным трансформерным LM.
English
The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baseline in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.

Summary

AI-Generated Summary

PDF21May 7, 2025