단어에서 숫자로: 대규모 언어 모델은 문맥 내 예제가 주어지면 숨겨진 회귀 분석 능력을 지닌다
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
April 11, 2024
저자: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI
초록
우리는 사전 학습된 대규모 언어 모델(예: Llama2, GPT-4, Claude 3 등)이 추가적인 학습이나 그래디언트 업데이트 없이 컨텍스트 내 예제가 주어졌을 때 선형 및 비선형 회귀를 얼마나 잘 수행할 수 있는지 분석했다. 연구 결과, GPT-4, Claude 3와 같은 여러 대규모 언어 모델이 Random Forest, Bagging, Gradient Boosting과 같은 전통적인 지도 학습 방법과 견줄 만한(또는 이를 능가하는) 성능으로 회귀 작업을 수행할 수 있음이 밝혀졌다. 예를 들어, 도전적인 Friedman #2 회귀 데이터셋에서 Claude 3는 AdaBoost, SVM, Random Forest, KNN, Gradient Boosting과 같은 많은 지도 학습 방법을 능가하는 성능을 보였다. 이후 우리는 대규모 언어 모델의 성능이 컨텍스트 내 예제의 수에 따라 어떻게 확장되는지 조사했다. 온라인 학습에서의 후회(regret) 개념을 차용하여, 대규모 언어 모델이 하위 선형(sub-linear) 후회를 달성할 수 있음을 실증적으로 보였다.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4,
Claude 3, etc) can do linear and non-linear regression when given in-context
examples, without any additional training or gradient updates. Our findings
reveal that several large language models (e.g., GPT-4, Claude 3) are able to
perform regression tasks with a performance rivaling (or even outperforming)
that of traditional supervised methods such as Random Forest, Bagging, or
Gradient Boosting. For example, on the challenging Friedman #2 regression
dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM,
Random Forest, KNN, or Gradient Boosting. We then investigate how well the
performance of large language models scales with the number of in-context
exemplars. We borrow from the notion of regret from online learning and
empirically show that LLMs are capable of obtaining a sub-linear regret.Summary
AI-Generated Summary