다중 보상 증류를 통한 자기 합리화 모델 최적화
Tailoring Self-Rationalizers with Multi-Reward Distillation
November 6, 2023
저자: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
cs.AI
초록
대규모 언어 모델(LMs)은 질문 응답을 돕기 위해 자유 텍스트 형식의 근거를 생성할 수 있다. 그러나 기존 연구는 1) 유용한 자기-근거화(self-rationalization)는 상당한 규모(예: 175B 매개변수 GPT-3)에서만 나타난다는 점을 시사하며, 2) 주로 하위 작업 성능에 초점을 맞추어 근거 자체의 의미론적 특성(예: 신뢰성, 진실성, 인간에게 도움이 되는지 여부)을 간과해 왔다. 본 연구에서는 GPT-3보다 약 200배 작은 규모의 LMs가 하위 작업 성능을 향상시킬 뿐만 아니라, 자동 및 인간 평가를 통해 더 그럴듯하고 일관적이며 다양성이 높은 근거를 생성할 수 있도록 한다. 우리의 방법인 MaRio(Multi-rewArd RatIOnalization)는 다중 보상 조건부 자기-근거화 알고리즘으로, 그럴듯함, 다양성, 일관성과 같은 여러 특성을 최적화한다. StrategyQA, QuaRel, OpenBookQA, NumerSense, QASC 등 5개의 어려운 질문-응답 데이터셋에서의 결과는 MaRio가 작업 정확도를 향상시킬 뿐만 아니라, 지도 미세 조정(SFT) 기준선보다 작은 LMs의 자기-근거화 품질을 앞서 언급한 측면에서 더욱 개선함을 보여준다. 광범위한 인간 평가를 통해 MaRio 근거가 SFT 근거보다 선호되며, 그럴듯함과 일관성 측면에서 질적 개선이 있음을 확인하였다.
English
Large language models (LMs) are capable of generating free-text rationales to
aid question answering. However, prior work 1) suggests that useful
self-rationalization is emergent only at significant scales (e.g., 175B
parameter GPT-3); and 2) focuses largely on downstream performance, ignoring
the semantics of the rationales themselves, e.g., are they faithful, true, and
helpful for humans? In this work, we enable small-scale LMs (approx. 200x
smaller than GPT-3) to generate rationales that not only improve downstream
task performance, but are also more plausible, consistent, and diverse,
assessed both by automatic and human evaluation. Our method, MaRio
(Multi-rewArd RatIOnalization), is a multi-reward conditioned
self-rationalization algorithm that optimizes multiple distinct properties like
plausibility, diversity and consistency. Results on five difficult
question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC
show that not only does MaRio improve task accuracy, but it also improves the
self-rationalization quality of small LMs across the aforementioned axes better
than a supervised fine-tuning (SFT) baseline. Extensive human evaluations
confirm that MaRio rationales are preferred vs. SFT rationales, as well as
qualitative improvements in plausibility and consistency.