ChatPaper.aiChatPaper

Метод ARR: вопросно-ответная система с использованием крупных языковых моделей через анализ, извлечение и рассуждение.

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
Авторы: Yuwei Yin, Giuseppe Carenini
cs.AI

Аннотация

Большие языковые модели (LLM) достигают выдающихся результатов на сложных бенчмарках, которые часто структурированы как задачи выбора ответа на вопросы (QA). Нулевой метод Chain-of-Thought (CoT) повышает рассуждения в LLM, но предоставляет только смутное и общее руководство ("думайте шаг за шагом"). В данной статье представлен метод ARR, интуитивный и эффективный нулевой метод подсказки, который явно включает три ключевых шага в решении задач QA: анализ намерения вопроса, извлечение соответствующей информации и последовательное рассуждение. Обширные эксперименты по разнообразным и сложным задачам QA демонстрируют, что ARR последовательно улучшает Базовый уровень (без подсказок ARR) и превосходит CoT. Абляционные и кейс-исследования дополнительно подтверждают положительный вклад каждого компонента: анализа, извлечения и рассуждения. Следует отметить, что анализ намерения играет важную роль в ARR. Кроме того, обширные оценки по различным размерам моделей, сериям LLM и настройкам генерации укрепляют эффективность, устойчивость и обобщаемость ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025