Personalizando Autojustificadores com Distilação de Múltiplas Recompensas

Resumo

Modelos de linguagem de grande escala (LMs) são capazes de gerar racionalizações em texto livre para auxiliar na resposta a perguntas. No entanto, trabalhos anteriores 1) sugerem que a autorracionalização útil só emerge em escalas significativas (por exemplo, o GPT-3 com 175 bilhões de parâmetros); e 2) focam amplamente no desempenho em tarefas subsequentes, ignorando a semântica das próprias racionalizações, por exemplo, se elas são fiéis, verdadeiras e úteis para humanos? Neste trabalho, capacitamos LMs de pequena escala (aproximadamente 200 vezes menores que o GPT-3) a gerar racionalizações que não apenas melhoram o desempenho em tarefas subsequentes, mas também são mais plausíveis, consistentes e diversas, avaliadas tanto automaticamente quanto por humanos. Nosso método, MaRio (Multi-rewArd RatIOnalization), é um algoritmo de autorracionalização condicionado a múltiplas recompensas que otimiza diversas propriedades distintas, como plausibilidade, diversidade e consistência. Resultados em cinco conjuntos de dados difíceis de questionamento e resposta — StrategyQA, QuaRel, OpenBookQA, NumerSense e QASC — mostram que o MaRio não apenas melhora a precisão da tarefa, mas também melhora a qualidade da autorracionalização de LMs pequenos nas dimensões mencionadas, superando uma linha de base de ajuste fino supervisionado (SFT). Avaliações humanas extensas confirmam que as racionalizações do MaRio são preferidas em relação às racionalizações do SFT, além de melhorias qualitativas em plausibilidade e consistência.

English

Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.

Personalizando Autojustificadores com Distilação de Múltiplas Recompensas

Tailoring Self-Rationalizers with Multi-Reward Distillation

Resumo

Support