De Palavras para Números: Seu Modelo de Linguagem de Grande Escala é Secretamente um Regressor Capaz Quando Recebe Exemplos em Contexto
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
April 11, 2024
Autores: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI
Resumo
Analisamos o quão bem modelos de linguagem grandes pré-treinados (por exemplo, Llama2, GPT-4, Claude 3, etc.) conseguem realizar regressões lineares e não lineares quando recebem exemplos em contexto, sem qualquer treinamento adicional ou atualizações de gradiente. Nossos resultados revelam que vários modelos de linguagem grandes (por exemplo, GPT-4, Claude 3) são capazes de executar tarefas de regressão com um desempenho que rivaliza (ou até supera) o de métodos supervisionados tradicionais, como Random Forest, Bagging ou Gradient Boosting. Por exemplo, no desafiador conjunto de dados de regressão Friedman #2, o Claude 3 supera muitos métodos supervisionados, como AdaBoost, SVM, Random Forest, KNN ou Gradient Boosting. Em seguida, investigamos o quão bem o desempenho dos modelos de linguagem grandes escala com o número de exemplares em contexto. Aproveitamos a noção de arrependimento (regret) da aprendizagem online e mostramos empiricamente que os LLMs são capazes de obter um arrependimento sublinear.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4,
Claude 3, etc) can do linear and non-linear regression when given in-context
examples, without any additional training or gradient updates. Our findings
reveal that several large language models (e.g., GPT-4, Claude 3) are able to
perform regression tasks with a performance rivaling (or even outperforming)
that of traditional supervised methods such as Random Forest, Bagging, or
Gradient Boosting. For example, on the challenging Friedman #2 regression
dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM,
Random Forest, KNN, or Gradient Boosting. We then investigate how well the
performance of large language models scales with the number of in-context
exemplars. We borrow from the notion of regret from online learning and
empirically show that LLMs are capable of obtaining a sub-linear regret.