De palabras a números: tu modelo de lenguaje grande es en secreto un regresor capaz cuando se le proporcionan ejemplos en contexto
From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples
April 11, 2024
Autores: Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu
cs.AI
Resumen
Analizamos qué tan bien los modelos de lenguaje preentrenados de gran escala (por ejemplo, Llama2, GPT-4, Claude 3, etc.) pueden realizar regresiones lineales y no lineales cuando se les proporcionan ejemplos en contexto, sin necesidad de entrenamiento adicional o actualizaciones de gradiente. Nuestros hallazgos revelan que varios modelos de lenguaje de gran escala (por ejemplo, GPT-4, Claude 3) son capaces de realizar tareas de regresión con un rendimiento que rivaliza (o incluso supera) al de métodos supervisados tradicionales como Random Forest, Bagging o Gradient Boosting. Por ejemplo, en el desafiante conjunto de datos de regresión Friedman #2, Claude 3 supera a muchos métodos supervisados como AdaBoost, SVM, Random Forest, KNN o Gradient Boosting. Luego investigamos cómo escala el rendimiento de los modelos de lenguaje de gran escala con el número de ejemplos en contexto. Tomamos prestada la noción de arrepentimiento (regret) del aprendizaje en línea y demostramos empíricamente que los LLM son capaces de obtener un arrepentimiento sublineal.
English
We analyze how well pre-trained large language models (e.g., Llama2, GPT-4,
Claude 3, etc) can do linear and non-linear regression when given in-context
examples, without any additional training or gradient updates. Our findings
reveal that several large language models (e.g., GPT-4, Claude 3) are able to
perform regression tasks with a performance rivaling (or even outperforming)
that of traditional supervised methods such as Random Forest, Bagging, or
Gradient Boosting. For example, on the challenging Friedman #2 regression
dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM,
Random Forest, KNN, or Gradient Boosting. We then investigate how well the
performance of large language models scales with the number of in-context
exemplars. We borrow from the notion of regret from online learning and
empirically show that LLMs are capable of obtaining a sub-linear regret.Summary
AI-Generated Summary