ChatPaper.aiChatPaper

Von Worten zu Zahlen: Ihr großes Sprachmodell ist heimlich ein leistungsfähiger Regressor, wenn ihm in-Kontext-Beispiele gegeben werden.

From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples

April 11, 2024
Autoren: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI

Zusammenfassung

Wir analysieren, wie gut vorab trainierte große Sprachmodelle (z. B. Llama2, GPT-4, Claude 3 usw.) lineare und nichtlineare Regression durchführen können, wenn sie Beispiele im Kontext erhalten, ohne zusätzliches Training oder Gradientenaktualisierungen. Unsere Ergebnisse zeigen, dass mehrere große Sprachmodelle (z. B. GPT-4, Claude 3) in der Lage sind, Regressionsaufgaben mit einer Leistung durchzuführen, die mit der traditioneller überwachter Methoden wie Random Forest, Bagging oder Gradient Boosting konkurrieren (oder diese sogar übertreffen). Beispielsweise übertrifft Claude 3 auf dem anspruchsvollen Friedman #2 Regressionsdatensatz viele überwachte Methoden wie AdaBoost, SVM, Random Forest, KNN oder Gradient Boosting. Anschließend untersuchen wir, wie gut die Leistung großer Sprachmodelle mit der Anzahl der Beispiele im Kontext skaliert. Wir greifen auf den Begriff des Bedauerns aus dem Online-Lernen zurück und zeigen empirisch, dass große Sprachmodelle in der Lage sind, ein sub-lineares Bedauern zu erzielen.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4, Claude 3, etc) can do linear and non-linear regression when given in-context examples, without any additional training or gradient updates. Our findings reveal that several large language models (e.g., GPT-4, Claude 3) are able to perform regression tasks with a performance rivaling (or even outperforming) that of traditional supervised methods such as Random Forest, Bagging, or Gradient Boosting. For example, on the challenging Friedman #2 regression dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM, Random Forest, KNN, or Gradient Boosting. We then investigate how well the performance of large language models scales with the number of in-context exemplars. We borrow from the notion of regret from online learning and empirically show that LLMs are capable of obtaining a sub-linear regret.

Summary

AI-Generated Summary

PDF211December 15, 2024