Da Parole a Numeri: Il Tuo Modello Linguistico di Grandi Dimensioni è Segretamente un Abile Regressore Quando Fornito di Esempi in Contesto
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
April 11, 2024
Autori: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI
Abstract
Analizziamo quanto bene i grandi modelli linguistici pre-addestrati (ad esempio, Llama2, GPT-4, Claude 3, ecc.) siano in grado di eseguire regressioni lineari e non lineari quando vengono forniti esempi in contesto, senza alcun addestramento aggiuntivo o aggiornamento dei gradienti. I nostri risultati rivelano che diversi grandi modelli linguistici (ad esempio, GPT-4, Claude 3) sono in grado di svolgere compiti di regressione con una performance che rivaleggia (o addirittura supera) quella dei metodi supervisionati tradizionali come Random Forest, Bagging o Gradient Boosting. Ad esempio, sul complesso dataset di regressione Friedman #2, Claude 3 supera molti metodi supervisionati come AdaBoost, SVM, Random Forest, KNN o Gradient Boosting. Successivamente, indaghiamo quanto bene la performance dei grandi modelli linguistici si ridimensiona con il numero di esempi in contesto. Prendiamo in prestito il concetto di rimpianto (regret) dall'apprendimento online e dimostriamo empiricamente che i grandi modelli linguistici sono in grado di ottenere un rimpianto sub-lineare.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4,
Claude 3, etc) can do linear and non-linear regression when given in-context
examples, without any additional training or gradient updates. Our findings
reveal that several large language models (e.g., GPT-4, Claude 3) are able to
perform regression tasks with a performance rivaling (or even outperforming)
that of traditional supervised methods such as Random Forest, Bagging, or
Gradient Boosting. For example, on the challenging Friedman #2 regression
dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM,
Random Forest, KNN, or Gradient Boosting. We then investigate how well the
performance of large language models scales with the number of in-context
exemplars. We borrow from the notion of regret from online learning and
empirically show that LLMs are capable of obtaining a sub-linear regret.