El ARTE del refinamiento de LLM: Preguntar, Refinar y Confiar
The ART of LLM Refinement: Ask, Refine, and Trust
November 14, 2023
Autores: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI
Resumen
En los últimos años, los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades generativas notables, pero ¿pueden juzgar la calidad de sus propias generaciones? Un concepto popular, conocido como autorrefinamiento, postula que los LLMs pueden detectar y corregir los errores en sus generaciones cuando se les solicita. Sin embargo, evidencia empírica reciente apunta en la dirección opuesta, sugiriendo que los LLMs a menudo tienen dificultades para identificar errores con precisión cuando se requiere razonamiento. Para abordar esto, proponemos un objetivo de razonamiento con refinamiento llamado ART: Preguntar, Refinar y Confiar, que formula preguntas necesarias para decidir cuándo un LLM debe refinar su salida, y afirma o retiene la confianza en su refinamiento al clasificar tanto el refinamiento como la predicción inicial. En dos tareas de razonamiento de múltiples pasos: problemas de palabras matemáticas (GSM8K) y respuesta a preguntas (StrategyQA), ART logra una mejora de rendimiento de +5 puntos sobre los baselines de autorrefinamiento, mientras utiliza un modelo mucho más pequeño como tomador de decisiones. También demostramos el beneficio de usar modelos más pequeños para tomar decisiones de refinamiento como una alternativa rentable al ajuste fino de un modelo más grande.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
generative abilities, but can they judge the quality of their own generations?
A popular concept, referred to as self-refinement, postulates that LLMs can
detect and correct the errors in their generations when asked to do so.
However, recent empirical evidence points in the opposite direction, suggesting
that LLMs often struggle to accurately identify errors when reasoning is
involved. To address this, we propose a reasoning with refinement objective
called ART: Ask, Refine, and Trust, which asks necessary questions to decide
when an LLM should refine its output, and either affirm or withhold trust in
its refinement by ranking the refinement and the initial prediction. On two
multistep reasoning tasks of mathematical word problems (GSM8K) and question
answering (StrategyQA), ART achieves a performance gain of +5 points over
self-refinement baselines, while using a much smaller model as the decision
maker. We also demonstrate the benefit of using smaller models to make
refinement decisions as a cost-effective alternative to fine-tuning a larger
model.