ChatPaper.aiChatPaper

Настройка моделей с самообоснованием через дистилляцию с множественными наградами

Tailoring Self-Rationalizers with Multi-Reward Distillation

November 6, 2023
Авторы: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
cs.AI

Аннотация

Крупные языковые модели (LM) способны генерировать свободные текстовые обоснования для помощи в ответах на вопросы. Однако предыдущие исследования 1) указывают на то, что полезная самообоснованность проявляется только на значительных масштабах (например, GPT-3 с 175 миллиардами параметров); и 2) в основном сосредоточены на итоговой производительности, игнорируя семантику самих обоснований, например, являются ли они достоверными, истинными и полезными для людей? В данной работе мы позволяем небольшим языковым моделям (примерно в 200 раз меньше GPT-3) генерировать обоснования, которые не только улучшают производительность на конечных задачах, но также становятся более правдоподобными, согласованными и разнообразными, что оценивается как автоматически, так и людьми. Наш метод, MaRio (Multi-rewArd RatIOnalization), представляет собой алгоритм самообоснования с множественными наградами, который оптимизирует различные свойства, такие как правдоподобие, разнообразие и согласованность. Результаты на пяти сложных наборах данных для вопросов и ответов — StrategyQA, QuaRel, OpenBookQA, NumerSense и QASC — показывают, что MaRio не только повышает точность выполнения задач, но и улучшает качество самообоснования небольших языковых моделей по указанным критериям лучше, чем базовый подход с контролируемым тонким обучением (SFT). Обширные оценки людьми подтверждают, что обоснования MaRio предпочтительнее по сравнению с обоснованиями SFT, а также демонстрируют качественные улучшения в правдоподобии и согласованности.
English
Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.
PDF71December 15, 2024