ChatPaper.aiChatPaper

ARR: Risponditore alle domande con grandi modelli linguistici tramite analisi, recupero e ragionamento.

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
Autori: Yuwei Yin, Giuseppe Carenini
cs.AI

Abstract

I grandi modelli linguistici (LLM) raggiungono prestazioni notevoli su benchmark impegnativi spesso strutturati come compiti di domande-risposte a scelta multipla. La tecnica Zero-shot Chain-of-Thought (CoT) migliora il ragionamento nei LLM, ma fornisce solo indicazioni vaghe e generiche ("pensa passo dopo passo"). Questo articolo introduce ARR, un metodo intuitivo ed efficace di prompting zero-shot che incorpora esplicitamente tre fasi chiave nella risoluzione di domande-risposte: analisi dell'intento della domanda, recupero di informazioni rilevanti e ragionamento passo dopo passo. Esperimenti completi su compiti di domande-risposte diversi e impegnativi dimostrano che ARR migliora costantemente il Baseline (senza prompting ARR) e supera CoT. Gli esperimenti di ablation e i casi di studio convalidano ulteriormente i contributi positivi di ciascun componente: analisi, recupero e ragionamento. In particolare, l'analisi dell'intento svolge un ruolo vitale in ARR. Inoltre, valutazioni approfondite su varie dimensioni del modello, serie di LLM e impostazioni di generazione consolidano l'efficacia, la robustezza e la generalizzabilità di ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025