Personnalisation des auto-justificateurs par distillation multi-récompenses

papers.abstract

Les grands modèles de langage (LM) sont capables de générer des justifications en texte libre pour faciliter la réponse à des questions. Cependant, les travaux antérieurs 1) suggèrent qu'une auto-justification utile n'émerge qu'à des échelles significatives (par exemple, GPT-3 avec 175 milliards de paramètres) ; et 2) se concentrent largement sur les performances en aval, en ignorant la sémantique des justifications elles-mêmes, par exemple, sont-elles fidèles, vraies et utiles pour les humains ? Dans ce travail, nous permettons à des LM de petite échelle (environ 200 fois plus petits que GPT-3) de générer des justifications qui non seulement améliorent les performances des tâches en aval, mais sont également plus plausibles, cohérentes et diversifiées, évaluées à la fois par des méthodes automatiques et par des évaluations humaines. Notre méthode, MaRio (Multi-rewArd RatIOnalization), est un algorithme d'auto-justification conditionné par plusieurs récompenses qui optimise plusieurs propriétés distinctes comme la plausibilité, la diversité et la cohérence. Les résultats sur cinq ensembles de données difficiles de questions-réponses (StrategyQA, QuaRel, OpenBookQA, NumerSense et QASC) montrent que non seulement MaRio améliore la précision des tâches, mais il améliore également la qualité de l'auto-justification des petits LM sur les axes mentionnés ci-dessus, mieux qu'une base de référence de fine-tuning supervisé (SFT). Des évaluations humaines approfondies confirment que les justifications de MaRio sont préférées par rapport à celles de SFT, ainsi que des améliorations qualitatives en termes de plausibilité et de cohérence.

English

Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.

Personnalisation des auto-justificateurs par distillation multi-récompenses

Tailoring Self-Rationalizers with Multi-Reward Distillation

papers.abstract

Support