ChatPaper.aiChatPaper

ARR: Vraagbeantwoording met Grote Taalmodellen via Analyseren, Ophalen en Redeneren

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
Auteurs: Yuwei Yin, Giuseppe Carenini
cs.AI

Samenvatting

Grote taalmodellen (LLM's) behalen opmerkelijke prestaties op uitdagende benchmarks die vaak gestructureerd zijn als meerkeuzevraag-beantwoordings (QA) taken. Zero-shot Chain-of-Thought (CoT) prompting verbetert redeneren in LLM's, maar biedt slechts vage en generieke begeleiding ("denk stap voor stap"). Dit artikel introduceert ARR, een intuïtieve en effectieve zero-shot prompting methode die expliciet drie essentiële stappen in QA-oplossingen incorporeert: het analyseren van de intentie van de vraag, het ophalen van relevante informatie, en stapsgewijs redeneren. Uitgebreide experimenten over diverse en uitdagende QA-taken tonen aan dat ARR consequent de Baseline verbetert (zonder ARR prompting) en CoT overtreft. Ablatie- en casestudies bevestigen verder de positieve bijdragen van elk component: analyseren, ophalen en redeneren. Opmerkelijk is dat intentieanalyse een cruciale rol speelt in ARR. Bovendien bevestigen uitgebreide evaluaties over verschillende modelgroottes, LLM-series en generatie-instellingen de effectiviteit, robuustheid en generaliseerbaarheid van ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025