Настройка моделей с самообоснованием через дистилляцию с множественными наградами
Tailoring Self-Rationalizers with Multi-Reward Distillation
November 6, 2023
Авторы: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
cs.AI
Аннотация
Крупные языковые модели (LM) способны генерировать свободные текстовые обоснования для помощи в ответах на вопросы. Однако предыдущие исследования 1) указывают на то, что полезная самообоснованность проявляется только на значительных масштабах (например, GPT-3 с 175 миллиардами параметров); и 2) в основном сосредоточены на итоговой производительности, игнорируя семантику самих обоснований, например, являются ли они достоверными, истинными и полезными для людей? В данной работе мы позволяем небольшим языковым моделям (примерно в 200 раз меньше GPT-3) генерировать обоснования, которые не только улучшают производительность на конечных задачах, но также становятся более правдоподобными, согласованными и разнообразными, что оценивается как автоматически, так и людьми. Наш метод, MaRio (Multi-rewArd RatIOnalization), представляет собой алгоритм самообоснования с множественными наградами, который оптимизирует различные свойства, такие как правдоподобие, разнообразие и согласованность. Результаты на пяти сложных наборах данных для вопросов и ответов — StrategyQA, QuaRel, OpenBookQA, NumerSense и QASC — показывают, что MaRio не только повышает точность выполнения задач, но и улучшает качество самообоснования небольших языковых моделей по указанным критериям лучше, чем базовый подход с контролируемым тонким обучением (SFT). Обширные оценки людьми подтверждают, что обоснования MaRio предпочтительнее по сравнению с обоснованиями SFT, а также демонстрируют качественные улучшения в правдоподобии и согласованности.
English
Large language models (LMs) are capable of generating free-text rationales to
aid question answering. However, prior work 1) suggests that useful
self-rationalization is emergent only at significant scales (e.g., 175B
parameter GPT-3); and 2) focuses largely on downstream performance, ignoring
the semantics of the rationales themselves, e.g., are they faithful, true, and
helpful for humans? In this work, we enable small-scale LMs (approx. 200x
smaller than GPT-3) to generate rationales that not only improve downstream
task performance, but are also more plausible, consistent, and diverse,
assessed both by automatic and human evaluation. Our method, MaRio
(Multi-rewArd RatIOnalization), is a multi-reward conditioned
self-rationalization algorithm that optimizes multiple distinct properties like
plausibility, diversity and consistency. Results on five difficult
question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC
show that not only does MaRio improve task accuracy, but it also improves the
self-rationalization quality of small LMs across the aforementioned axes better
than a supervised fine-tuning (SFT) baseline. Extensive human evaluations
confirm that MaRio rationales are preferred vs. SFT rationales, as well as
qualitative improvements in plausibility and consistency.