LML: Aprendizado de Modelo de Linguagem em um Conjunto de Dados para Predição com Dados Ampliados
LML: Language Model Learning a Dataset for Data-Augmented Prediction
September 27, 2024
Autores: Praneeth Vadlapati
cs.AI
Resumo
Este artigo apresenta uma nova abordagem para utilizar Modelos de Linguagem de Grande Escala (LLMs) em tarefas de classificação, que são tipicamente tratadas usando Modelos de Aprendizado de Máquina (ML). Ao contrário dos modelos de ML que dependem fortemente da limpeza de dados e engenharia de características, este método simplifica o processo utilizando LLMs. Este artigo propõe um novo conceito chamado "Aprendizado de Modelo de Linguagem (LML)" impulsionado por um novo método chamado "Predição com Dados Ampliados (DAP)". A classificação é realizada pelos LLMs usando um método semelhante ao de humanos explorando manualmente e compreendendo os dados e decidindo classificações usando os dados como referência. Os dados de treinamento são resumidos e avaliados para determinar as características que mais levam à classificação de cada rótulo. No processo de DAP, o sistema utiliza o resumo dos dados para criar automaticamente uma consulta, que é usada para recuperar linhas relevantes do conjunto de dados. Uma classificação é gerada pelo LLM usando o resumo dos dados e as linhas relevantes, garantindo uma precisão satisfatória mesmo com dados complexos. O uso do resumo dos dados e dados semelhantes no DAP garante a tomada de decisões contextualmente consciente. O método proposto utiliza as palavras "Atuar como um Modelo de Aprendizado de Máquina Explicável" na solicitação para aprimorar a interpretabilidade das previsões, permitindo que os usuários revisem a lógica por trás de cada previsão. Em alguns casos de teste, o sistema obteve uma precisão acima de 90%, comprovando a eficácia do sistema e seu potencial para superar os modelos de ML convencionais em vários cenários. O código está disponível em https://github.com/Pro-GenAI/LML-DAP
English
This paper introduces a new approach to using Large Language Models (LLMs)
for classification tasks, which are typically handled using Machine Learning
(ML) models. Unlike ML models that rely heavily on data cleaning and feature
engineering, this method streamlines the process using LLMs. This paper
proposes a new concept called "Language Model Learning (LML)" powered by a new
method called "Data-Augmented Prediction (DAP)". The classification is
performed by LLMs using a method similar to humans manually exploring and
understanding the data and deciding classifications using data as a reference.
Training data is summarized and evaluated to determine the features that lead
to the classification of each label the most. In the process of DAP, the system
uses the data summary to automatically create a query, which is used to
retrieve relevant rows from the dataset. A classification is generated by the
LLM using data summary and relevant rows, ensuring satisfactory accuracy even
with complex data. Usage of data summary and similar data in DAP ensures
context-aware decision-making. The proposed method uses the words "Act as an
Explainable Machine Learning Model" in the prompt to enhance the
interpretability of the predictions by allowing users to review the logic
behind each prediction. In some test cases, the system scored an accuracy above
90%, proving the effectiveness of the system and its potential to outperform
conventional ML models in various scenarios. The code is available at
https://github.com/Pro-GenAI/LML-DAPSummary
AI-Generated Summary