독점적 대형 언어 모델 모방의 허울뿐인 약속
The False Promise of Imitating Proprietary LLMs
May 25, 2023
저자: Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song
cs.AI
초록
약한 언어 모델을 저렴하게 개선하는 새로운 방법으로, ChatGPT와 같은 강력한 모델(예: Alpaca, Self-Instruct 등)의 출력을 기반으로 미세 조정(finetune)하는 접근법이 등장했습니다. 이 방법은 약한 오픈소스 모델을 사용해 독점 모델의 능력을 저렴하게 모방하는 것을 목표로 합니다. 본 연구에서는 이러한 접근법을 비판적으로 분석합니다. 먼저, 다양한 기본 모델 크기(1.5B–13B), 데이터 소스, 모방 데이터 양(0.3M–150M 토큰)을 사용해 ChatGPT를 모방하는 일련의 언어 모델(LM)을 미세 조정했습니다. 이후, 크라우드 평가자와 표준 NLP 벤치마크를 통해 모델을 평가했습니다. 초기에는 모방 모델의 출력 품질에 놀랐습니다. 이 모델들은 지시를 따르는 능력이 훨씬 뛰어났으며, 크라우드 작업자들은 그 출력을 ChatGPT와 경쟁력 있는 수준으로 평가했습니다. 그러나 보다 표적화된 자동 평가를 수행한 결과, 모방 데이터에서 충분히 지원되지 않는 작업에서는 기본 LM과 ChatGPT 사이의 격차가 거의 좁혀지지 않음을 발견했습니다. 이러한 성능 차이는 인간 평가자에게 간과될 수 있는데, 이는 모방 모델이 ChatGPT의 스타일은 잘 모방하지만 사실성(factuality)은 모방하지 못하기 때문입니다. 전반적으로, 우리는 모델 모방이 허황된 약속이라고 결론지었습니다. 오픈소스와 독점 LM 사이에는 상당한 능력 격차가 존재하며, 현재의 방법으로는 엄청난 양의 모방 데이터를 사용하거나 더 강력한 기본 LM을 사용해야만 이 격차를 메울 수 있습니다. 따라서, 오픈소스 모델을 개선하기 위한 가장 효과적인 방법은 독점 시스템을 모방하는 지름길을 택하기보다, 더 나은 기본 LM을 개발하는 어려운 과제에 도전하는 것이라고 주장합니다.
English
An emerging method to cheaply improve a weaker language model is to finetune
it on outputs from a stronger model, such as a proprietary system like ChatGPT
(e.g., Alpaca, Self-Instruct, and others). This approach looks to cheaply
imitate the proprietary model's capabilities using a weaker open-source model.
In this work, we critically analyze this approach. We first finetune a series
of LMs that imitate ChatGPT using varying base model sizes (1.5B--13B), data
sources, and imitation data amounts (0.3M--150M tokens). We then evaluate the
models using crowd raters and canonical NLP benchmarks. Initially, we were
surprised by the output quality of our imitation models -- they appear far
better at following instructions, and crowd workers rate their outputs as
competitive with ChatGPT. However, when conducting more targeted automatic
evaluations, we find that imitation models close little to none of the gap from
the base LM to ChatGPT on tasks that are not heavily supported in the imitation
data. We show that these performance discrepancies may slip past human raters
because imitation models are adept at mimicking ChatGPT's style but not its
factuality. Overall, we conclude that model imitation is a false promise: there
exists a substantial capabilities gap between open and closed LMs that, with
current methods, can only be bridged using an unwieldy amount of imitation data
or by using more capable base LMs. In turn, we argue that the highest leverage
action for improving open-source models is to tackle the difficult challenge of
developing better base LMs, rather than taking the shortcut of imitating
proprietary systems.