필요할 때만 인터페이스 호출: 질의응답을 위한 대규모 언어 모델의 적응형 호출
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
May 5, 2025
저자: Jihao Zhao, Chunlai Zhou, Biao Qin
cs.AI
초록
대형 및 소형 언어 모델(LMs)의 협업 패러다임은 성능과 비용을 효과적으로 균형 있게 조정하지만, 핵심적인 과제는 소형 LMs에서 환각(hallucination)이 발생할 때 정확한 호출 시점을 파악하는 데 있습니다. 기존의 최적화 노력은 주로 후처리 기술에 초점을 맞추었으며, 이는 LMs의 추론 과정과 분리되어 있어 높은 계산 비용과 제한된 효과를 초래했습니다. 본 논문에서는 AttenHScore라는 실용적인 호출 평가 지표를 제안합니다. 이 지표는 소형 LMs의 생성 과정에서 환각의 누적과 전파를 계산하여 잠재적인 추론 오류를 지속적으로 증폭시킵니다. 동적으로 탐지 임계값을 조정함으로써 대형 LMs의 실시간 호출을 더 정확하게 달성합니다. 또한, 소형 LMs의 제한된 추론 능력을 고려하여 불확실성 인식 지식 재구성을 활용하여 다양한 텍스트 청크에서 중요한 정보를 더 잘 포착할 수 있도록 돕습니다. 광범위한 실험을 통해 우리의 AttenHScore가 여러 QA 데이터셋에서 실시간 환각 탐지 능력을 향상시키는 데 있어 대부분의 베이스라인을 능가하며, 특히 복잡한 질의를 다룰 때 뛰어난 성능을 보임을 확인했습니다. 더욱이, 우리의 전략은 추가 모델 학습이 필요하지 않으며 다양한 트랜스포머 기반 LMs에 적응하는 데 유연성을 보입니다.
English
The collaborative paradigm of large and small language models (LMs)
effectively balances performance and cost, yet its pivotal challenge lies in
precisely pinpointing the moment of invocation when hallucinations arise in
small LMs. Previous optimization efforts primarily focused on post-processing
techniques, which were separate from the reasoning process of LMs, resulting in
high computational costs and limited effectiveness. In this paper, we propose a
practical invocation evaluation metric called AttenHScore, which calculates the
accumulation and propagation of hallucinations during the generation process of
small LMs, continuously amplifying potential reasoning errors. By dynamically
adjusting the detection threshold, we achieve more accurate real-time
invocation of large LMs. Additionally, considering the limited reasoning
capacity of small LMs, we leverage uncertainty-aware knowledge reorganization
to assist them better capture critical information from different text chunks.
Extensive experiments reveal that our AttenHScore outperforms most baseline in
enhancing real-time hallucination detection capabilities across multiple QA
datasets, especially when addressing complex queries. Moreover, our strategies
eliminate the need for additional model training and display flexibility in
adapting to various transformer-based LMs.Summary
AI-Generated Summary