ChatPaper.aiChatPaper

ARR : Réponse aux questions avec de grands modèles de langage via l'analyse, la récupération et le raisonnement

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
Auteurs: Yuwei Yin, Giuseppe Carenini
cs.AI

Résumé

Les grands modèles de langage (LLM) atteignent des performances remarquables sur des benchmarks exigeants souvent structurés sous forme de tâches de question-réponse à choix multiples. La technique de chaîne de pensée Zero-shot (CoT) améliore le raisonnement dans les LLM mais ne fournit qu'une orientation vague et générique ("penser étape par étape"). Ce document présente ARR, une méthode d'orientation zero-shot intuitive et efficace qui intègre explicitement trois étapes clés dans la résolution de questions-réponses : analyser l'intention de la question, récupérer des informations pertinentes et raisonner étape par étape. Des expériences approfondies sur diverses tâches de question-réponse complexes démontrent que ARR améliore de manière constante la référence (sans orientation ARR) et surpasse CoT. Les études d'ablation et de cas valident davantage les contributions positives de chaque composante : analyse, récupération et raisonnement. Notamment, l'analyse de l'intention joue un rôle vital dans ARR. De plus, des évaluations approfondies sur diverses tailles de modèles, séries de LLM et paramètres de génération renforcent l'efficacité, la robustesse et la généralisabilité de ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025