Von Worten zu Zahlen: Ihr großes Sprachmodell ist heimlich ein leistungsfähiger Regressor, wenn ihm in-Kontext-Beispiele gegeben werden.
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
April 11, 2024
Autoren: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI
Zusammenfassung
Wir analysieren, wie gut vorab trainierte große Sprachmodelle (z. B. Llama2, GPT-4, Claude 3 usw.) lineare und nichtlineare Regression durchführen können, wenn sie Beispiele im Kontext erhalten, ohne zusätzliches Training oder Gradientenaktualisierungen. Unsere Ergebnisse zeigen, dass mehrere große Sprachmodelle (z. B. GPT-4, Claude 3) in der Lage sind, Regressionsaufgaben mit einer Leistung durchzuführen, die mit der traditioneller überwachter Methoden wie Random Forest, Bagging oder Gradient Boosting konkurrieren (oder diese sogar übertreffen). Beispielsweise übertrifft Claude 3 auf dem anspruchsvollen Friedman #2 Regressionsdatensatz viele überwachte Methoden wie AdaBoost, SVM, Random Forest, KNN oder Gradient Boosting. Anschließend untersuchen wir, wie gut die Leistung großer Sprachmodelle mit der Anzahl der Beispiele im Kontext skaliert. Wir greifen auf den Begriff des Bedauerns aus dem Online-Lernen zurück und zeigen empirisch, dass große Sprachmodelle in der Lage sind, ein sub-lineares Bedauern zu erzielen.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4,
Claude 3, etc) can do linear and non-linear regression when given in-context
examples, without any additional training or gradient updates. Our findings
reveal that several large language models (e.g., GPT-4, Claude 3) are able to
perform regression tasks with a performance rivaling (or even outperforming)
that of traditional supervised methods such as Random Forest, Bagging, or
Gradient Boosting. For example, on the challenging Friedman #2 regression
dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM,
Random Forest, KNN, or Gradient Boosting. We then investigate how well the
performance of large language models scales with the number of in-context
exemplars. We borrow from the notion of regret from online learning and
empirically show that LLMs are capable of obtaining a sub-linear regret.Summary
AI-Generated Summary