Personalizzazione degli Auto-Razionalizzatori con Distillazione Multi-Ricompensa

Abstract

I grandi modelli linguistici (LM) sono in grado di generare razionalizzazioni in testo libero per supportare il rispondere a domande. Tuttavia, lavori precedenti 1) suggeriscono che una utile auto-razionalizzazione emerge solo a scale significative (ad esempio, GPT-3 con 175 miliardi di parametri); e 2) si concentrano principalmente sulle prestazioni a valle, ignorando la semantica delle razionalizzazioni stesse, ad esempio, sono fedeli, vere e utili per gli esseri umani? In questo lavoro, consentiamo a LM di piccole dimensioni (circa 200 volte più piccoli di GPT-3) di generare razionalizzazioni che non solo migliorano le prestazioni delle attività a valle, ma sono anche più plausibili, coerenti e diversificate, valutate sia automaticamente che da esseri umani. Il nostro metodo, MaRio (Multi-rewArd RatIOnalization), è un algoritmo di auto-razionalizzazione condizionato a più ricompense che ottimizza proprietà distinte come plausibilità, diversità e coerenza. I risultati su cinque difficili dataset di risposta alle domande (StrategyQA, QuaRel, OpenBookQA, NumerSense e QASC) mostrano che non solo MaRio migliora l'accuratezza delle attività, ma migliora anche la qualità dell'auto-razionalizzazione dei piccoli LM lungo gli assi sopra menzionati, superando una baseline di fine-tuning supervisionato (SFT). Valutazioni umane estensive confermano che le razionalizzazioni di MaRio sono preferite rispetto a quelle SFT, con miglioramenti qualitativi in termini di plausibilità e coerenza.

English

Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.

Personalizzazione degli Auto-Razionalizzatori con Distillazione Multi-Ricompensa

Tailoring Self-Rationalizers with Multi-Reward Distillation

Abstract

Support