Personalizando Autojustificadores com Distilação de Múltiplas Recompensas
Tailoring Self-Rationalizers with Multi-Reward Distillation
November 6, 2023
Autores: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
cs.AI
Resumo
Modelos de linguagem de grande escala (LMs) são capazes de gerar racionalizações em texto livre para auxiliar na resposta a perguntas. No entanto, trabalhos anteriores 1) sugerem que a autorracionalização útil só emerge em escalas significativas (por exemplo, o GPT-3 com 175 bilhões de parâmetros); e 2) focam amplamente no desempenho em tarefas subsequentes, ignorando a semântica das próprias racionalizações, por exemplo, se elas são fiéis, verdadeiras e úteis para humanos? Neste trabalho, capacitamos LMs de pequena escala (aproximadamente 200 vezes menores que o GPT-3) a gerar racionalizações que não apenas melhoram o desempenho em tarefas subsequentes, mas também são mais plausíveis, consistentes e diversas, avaliadas tanto automaticamente quanto por humanos. Nosso método, MaRio (Multi-rewArd RatIOnalization), é um algoritmo de autorracionalização condicionado a múltiplas recompensas que otimiza diversas propriedades distintas, como plausibilidade, diversidade e consistência. Resultados em cinco conjuntos de dados difíceis de questionamento e resposta — StrategyQA, QuaRel, OpenBookQA, NumerSense e QASC — mostram que o MaRio não apenas melhora a precisão da tarefa, mas também melhora a qualidade da autorracionalização de LMs pequenos nas dimensões mencionadas, superando uma linha de base de ajuste fino supervisionado (SFT). Avaliações humanas extensas confirmam que as racionalizações do MaRio são preferidas em relação às racionalizações do SFT, além de melhorias qualitativas em plausibilidade e consistência.
English
Large language models (LMs) are capable of generating free-text rationales to
aid question answering. However, prior work 1) suggests that useful
self-rationalization is emergent only at significant scales (e.g., 175B
parameter GPT-3); and 2) focuses largely on downstream performance, ignoring
the semantics of the rationales themselves, e.g., are they faithful, true, and
helpful for humans? In this work, we enable small-scale LMs (approx. 200x
smaller than GPT-3) to generate rationales that not only improve downstream
task performance, but are also more plausible, consistent, and diverse,
assessed both by automatic and human evaluation. Our method, MaRio
(Multi-rewArd RatIOnalization), is a multi-reward conditioned
self-rationalization algorithm that optimizes multiple distinct properties like
plausibility, diversity and consistency. Results on five difficult
question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC
show that not only does MaRio improve task accuracy, but it also improves the
self-rationalization quality of small LMs across the aforementioned axes better
than a supervised fine-tuning (SFT) baseline. Extensive human evaluations
confirm that MaRio rationales are preferred vs. SFT rationales, as well as
qualitative improvements in plausibility and consistency.