LML: Aprendizado de Modelo de Linguagem em um Conjunto de Dados para Predição com Dados Ampliados

Resumo

Este artigo apresenta uma nova abordagem para utilizar Modelos de Linguagem de Grande Escala (LLMs) em tarefas de classificação, que são tipicamente tratadas usando Modelos de Aprendizado de Máquina (ML). Ao contrário dos modelos de ML que dependem fortemente da limpeza de dados e engenharia de características, este método simplifica o processo utilizando LLMs. Este artigo propõe um novo conceito chamado "Aprendizado de Modelo de Linguagem (LML)" impulsionado por um novo método chamado "Predição com Dados Ampliados (DAP)". A classificação é realizada pelos LLMs usando um método semelhante ao de humanos explorando manualmente e compreendendo os dados e decidindo classificações usando os dados como referência. Os dados de treinamento são resumidos e avaliados para determinar as características que mais levam à classificação de cada rótulo. No processo de DAP, o sistema utiliza o resumo dos dados para criar automaticamente uma consulta, que é usada para recuperar linhas relevantes do conjunto de dados. Uma classificação é gerada pelo LLM usando o resumo dos dados e as linhas relevantes, garantindo uma precisão satisfatória mesmo com dados complexos. O uso do resumo dos dados e dados semelhantes no DAP garante a tomada de decisões contextualmente consciente. O método proposto utiliza as palavras "Atuar como um Modelo de Aprendizado de Máquina Explicável" na solicitação para aprimorar a interpretabilidade das previsões, permitindo que os usuários revisem a lógica por trás de cada previsão. Em alguns casos de teste, o sistema obteve uma precisão acima de 90%, comprovando a eficácia do sistema e seu potencial para superar os modelos de ML convencionais em vários cenários. O código está disponível em https://github.com/Pro-GenAI/LML-DAP

English

This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks, which are typically handled using Machine Learning (ML) models. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)". The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. Training data is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary to automatically create a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data. Usage of data summary and similar data in DAP ensures context-aware decision-making. The proposed method uses the words "Act as an Explainable Machine Learning Model" in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

LML: Aprendizado de Modelo de Linguagem em um Conjunto de Dados para Predição com Dados Ampliados

LML: Language Model Learning a Dataset for Data-Augmented Prediction

Resumo

Support