ChatPaper.aiChatPaper

ARR: Resposta a Perguntas com Modelos de Linguagem Grandes por meio de Análise, Recuperação e Raciocínio.

ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning

February 7, 2025
Autores: Yuwei Yin, Giuseppe Carenini
cs.AI

Resumo

Grandes modelos de linguagem (LLMs) alcançam um desempenho notável em benchmarks desafiadores frequentemente estruturados como tarefas de pergunta-resposta de múltipla escolha. A técnica Zero-shot Chain-of-Thought (CoT) aprimora o raciocínio em LLMs, mas fornece apenas orientações vagas e genéricas ("pense passo a passo"). Este artigo apresenta ARR, um método intuitivo e eficaz de orientação zero-shot que incorpora explicitamente três etapas-chave na resolução de perguntas e respostas: analisar a intenção da pergunta, recuperar informações relevantes e raciocinar passo a passo. Experimentos abrangentes em diversas e desafiadoras tarefas de pergunta-resposta demonstram que ARR melhora consistentemente o Baseline (sem orientação ARR) e supera o CoT. Estudos de ablação e de caso validam ainda mais as contribuições positivas de cada componente: análise, recuperação e raciocínio. Notavelmente, a análise de intenção desempenha um papel vital no ARR. Adicionalmente, avaliações extensivas em diferentes tamanhos de modelo, séries de LLM e configurações de geração solidificam a eficácia, robustez e generalizabilidade do ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.

Summary

AI-Generated Summary

PDF73February 10, 2025