Adaptación de Autojustificadores mediante Destilación Multi-Recompensa
Tailoring Self-Rationalizers with Multi-Reward Distillation
November 6, 2023
Autores: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
cs.AI
Resumen
Los modelos de lenguaje a gran escala (LMs) son capaces de generar razonamientos en texto libre para ayudar en la respuesta a preguntas. Sin embargo, trabajos previos 1) sugieren que la autorracionalización útil solo emerge a escalas significativas (por ejemplo, GPT-3 con 175B parámetros); y 2) se centran principalmente en el rendimiento final, ignorando la semántica de los razonamientos en sí, por ejemplo, ¿son fieles, verdaderos y útiles para los humanos? En este trabajo, permitimos que LMs a pequeña escala (aproximadamente 200 veces más pequeños que GPT-3) generen razonamientos que no solo mejoran el rendimiento en tareas posteriores, sino que también son más plausibles, consistentes y diversos, evaluados tanto automáticamente como por humanos. Nuestro método, MaRio (Multi-rewArd RatIOnalization), es un algoritmo de autorracionalización condicionado por múltiples recompensas que optimiza propiedades distintas como la plausibilidad, la diversidad y la consistencia. Los resultados en cinco conjuntos de datos difíciles de preguntas y respuestas (StrategyQA, QuaRel, OpenBookQA, NumerSense y QASC) muestran que MaRio no solo mejora la precisión en las tareas, sino que también mejora la calidad de la autorracionalización en LMs pequeños en los ejes mencionados, superando a una línea base de ajuste fino supervisado (SFT). Evaluaciones humanas extensas confirman que los razonamientos de MaRio son preferidos frente a los de SFT, así como mejoras cualitativas en plausibilidad y consistencia.
English
Large language models (LMs) are capable of generating free-text rationales to
aid question answering. However, prior work 1) suggests that useful
self-rationalization is emergent only at significant scales (e.g., 175B
parameter GPT-3); and 2) focuses largely on downstream performance, ignoring
the semantics of the rationales themselves, e.g., are they faithful, true, and
helpful for humans? In this work, we enable small-scale LMs (approx. 200x
smaller than GPT-3) to generate rationales that not only improve downstream
task performance, but are also more plausible, consistent, and diverse,
assessed both by automatic and human evaluation. Our method, MaRio
(Multi-rewArd RatIOnalization), is a multi-reward conditioned
self-rationalization algorithm that optimizes multiple distinct properties like
plausibility, diversity and consistency. Results on five difficult
question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC
show that not only does MaRio improve task accuracy, but it also improves the
self-rationalization quality of small LMs across the aforementioned axes better
than a supervised fine-tuning (SFT) baseline. Extensive human evaluations
confirm that MaRio rationales are preferred vs. SFT rationales, as well as
qualitative improvements in plausibility and consistency.