ARR: Frage-Antwort-System mit großen Sprachmodellen durch Analyse, Abruf und Schlussfolgerung
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning
February 7, 2025
Autoren: Yuwei Yin, Giuseppe Carenini
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) erzielen bemerkenswerte Leistungen bei anspruchsvollen Benchmarks, die häufig als Multiple-Choice-Frage-Antwort-Aufgaben strukturiert sind. Die Zero-shot Chain-of-Thought (CoT) Anregung verbessert das Denkvermögen in LLMs, bietet jedoch nur vage und allgemeine Anleitung ("denke Schritt für Schritt"). Dieses Papier stellt ARR vor, eine intuitive und effektive Zero-shot Anregungsmethode, die explizit drei Schlüsselschritte beim Lösen von Frage-Antwort-Aufgaben integriert: die Analyse der Frageabsicht, das Abrufen relevanter Informationen und das schrittweise Argumentieren. Umfassende Experimente über verschiedene und anspruchsvolle Frage-Antwort-Aufgaben zeigen, dass ARR die Baseline (ohne ARR-Anregung) konsistent verbessert und CoT übertrifft. Ablations- und Fallstudien bestätigen weiterhin die positiven Beiträge jedes Bestandteils: Analyse, Abruf und Argumentation. Insbesondere die Absichtsanalyse spielt eine wichtige Rolle bei ARR. Darüber hinaus festigen umfangreiche Bewertungen über verschiedene Modellgrößen, LLM-Serien und Generierungseinstellungen die Wirksamkeit, Robustheit und Generalisierbarkeit von ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging
benchmarks that are often structured as multiple-choice question-answering (QA)
tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs
but provides only vague and generic guidance ("think step by step"). This paper
introduces ARR, an intuitive and effective zero-shot prompting method that
explicitly incorporates three key steps in QA solving: analyzing the intent of
the question, retrieving relevant information, and reasoning step by step.
Comprehensive experiments across diverse and challenging QA tasks demonstrate
that ARR consistently improves the Baseline (without ARR prompting) and
outperforms CoT. Ablation and case studies further validate the positive
contributions of each component: analyzing, retrieving, and reasoning. Notably,
intent analysis plays a vital role in ARR. Additionally, extensive evaluations
across various model sizes, LLM series, and generation settings solidify the
effectiveness, robustness, and generalizability of ARR.