LML: Taalmodel leren van een dataset voor data-verrijkte voorspelling
LML: Language Model Learning a Dataset for Data-Augmented Prediction
September 27, 2024
Auteurs: Praneeth Vadlapati
cs.AI
Samenvatting
Deze paper introduceert een nieuwe benadering voor het gebruik van Grote Taalmodellen (LLM's) voor classificatietaken, die doorgaans worden afgehandeld met behulp van Machine Learning (ML) modellen. In tegenstelling tot ML modellen die sterk afhankelijk zijn van gegevensreiniging en kenmerktechniek, stroomlijnt deze methode het proces met behulp van LLM's. Deze paper stelt een nieuw concept voor genaamd "Taalmodel Leren (LML)" aangedreven door een nieuwe methode genaamd "Data-Augmented Prediction (DAP)". De classificatie wordt uitgevoerd door LLM's met behulp van een methode die lijkt op mensen die handmatig de gegevens verkennen en begrijpen en classificaties beslissen met behulp van gegevens als referentie. Trainingsgegevens worden samengevat en geëvalueerd om de kenmerken te bepalen die leiden tot de classificatie van elk label het meest. In het proces van DAP gebruikt het systeem de samenvatting van de gegevens om automatisch een query te maken, die wordt gebruikt om relevante rijen uit de dataset op te halen. Een classificatie wordt gegenereerd door de LLM met behulp van de samenvatting van de gegevens en relevante rijen, waarbij een bevredigende nauwkeurigheid wordt gegarandeerd, zelfs bij complexe gegevens. Het gebruik van gegevenssamenvatting en vergelijkbare gegevens in DAP zorgt voor contextbewuste besluitvorming. De voorgestelde methode gebruikt de woorden "Optreden als een Verklaarbaar Machine Learning Model" in de prompt om de interpreteerbaarheid van de voorspellingen te verbeteren door gebruikers in staat te stellen de logica achter elke voorspelling te bekijken. In sommige testgevallen behaalde het systeem een nauwkeurigheid van boven de 90%, wat de effectiviteit van het systeem aantoont en het potentieel om conventionele ML modellen te overtreffen in verschillende scenario's. De code is beschikbaar op https://github.com/Pro-GenAI/LML-DAP
English
This paper introduces a new approach to using Large Language Models (LLMs)
for classification tasks, which are typically handled using Machine Learning
(ML) models. Unlike ML models that rely heavily on data cleaning and feature
engineering, this method streamlines the process using LLMs. This paper
proposes a new concept called "Language Model Learning (LML)" powered by a new
method called "Data-Augmented Prediction (DAP)". The classification is
performed by LLMs using a method similar to humans manually exploring and
understanding the data and deciding classifications using data as a reference.
Training data is summarized and evaluated to determine the features that lead
to the classification of each label the most. In the process of DAP, the system
uses the data summary to automatically create a query, which is used to
retrieve relevant rows from the dataset. A classification is generated by the
LLM using data summary and relevant rows, ensuring satisfactory accuracy even
with complex data. Usage of data summary and similar data in DAP ensures
context-aware decision-making. The proposed method uses the words "Act as an
Explainable Machine Learning Model" in the prompt to enhance the
interpretability of the predictions by allowing users to review the logic
behind each prediction. In some test cases, the system scored an accuracy above
90%, proving the effectiveness of the system and its potential to outperform
conventional ML models in various scenarios. The code is available at
https://github.com/Pro-GenAI/LML-DAPSummary
AI-Generated Summary