ARR: Respuesta a Preguntas con Modelos de Lenguaje Grandes mediante Análisis, Recuperación y Razonamiento.
ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning
February 7, 2025
Autores: Yuwei Yin, Giuseppe Carenini
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) logran un rendimiento notable en desafiantes pruebas que a menudo están estructuradas como tareas de pregunta-respuesta de opción múltiple. La técnica Zero-shot Chain-of-Thought (CoT) mejora el razonamiento en LLMs pero solo proporciona orientación vaga y genérica ("piensa paso a paso"). Este artículo presenta ARR, un método de orientación intuitivo y efectivo que incorpora explícitamente tres pasos clave en la resolución de preguntas y respuestas: analizar la intención de la pregunta, recuperar información relevante y razonar paso a paso. Experimentos exhaustivos en diversas y desafiantes tareas de pregunta-respuesta demuestran que ARR mejora consistentemente el Baseline (sin la orientación de ARR) y supera a CoT. Estudios de ablación y casos adicionales validan aún más las contribuciones positivas de cada componente: análisis, recuperación y razonamiento. Es importante destacar que el análisis de la intención desempeña un papel vital en ARR. Además, evaluaciones extensas en diferentes tamaños de modelo, series de LLM y configuraciones de generación consolidan la efectividad, robustez y generalizabilidad de ARR.
English
Large language models (LLMs) achieve remarkable performance on challenging
benchmarks that are often structured as multiple-choice question-answering (QA)
tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs
but provides only vague and generic guidance ("think step by step"). This paper
introduces ARR, an intuitive and effective zero-shot prompting method that
explicitly incorporates three key steps in QA solving: analyzing the intent of
the question, retrieving relevant information, and reasoning step by step.
Comprehensive experiments across diverse and challenging QA tasks demonstrate
that ARR consistently improves the Baseline (without ARR prompting) and
outperforms CoT. Ablation and case studies further validate the positive
contributions of each component: analyzing, retrieving, and reasoning. Notably,
intent analysis plays a vital role in ARR. Additionally, extensive evaluations
across various model sizes, LLM series, and generation settings solidify the
effectiveness, robustness, and generalizability of ARR.Summary
AI-Generated Summary