LML: Sprachmodell-Lernen eines Datensatzes für datengestützte Vorhersage
LML: Language Model Learning a Dataset for Data-Augmented Prediction
September 27, 2024
Autoren: Praneeth Vadlapati
cs.AI
Zusammenfassung
Dieses Papier stellt einen neuen Ansatz zur Verwendung von Large Language Models (LLMs) für Klassifizierungsaufgaben vor, die in der Regel mit Machine Learning (ML)-Modellen bearbeitet werden. Im Gegensatz zu ML-Modellen, die stark auf Datenbereinigung und Merkmalsextraktion angewiesen sind, vereinfacht diese Methode den Prozess mithilfe von LLMs. Dieses Papier schlägt ein neues Konzept namens "Language Model Learning (LML)" vor, das von einer neuen Methode namens "Data-Augmented Prediction (DAP)" unterstützt wird. Die Klassifizierung wird von LLMs durchgeführt, die eine Methode ähnlich der manuellen Erkundung und Verständnis von Daten durch Menschen verwenden und Entscheidungen über Klassifizierungen anhand von Daten als Referenz treffen. Trainingsdaten werden zusammengefasst und bewertet, um die Merkmale zu bestimmen, die am meisten zur Klassifizierung jedes Labels beitragen. Im Verlauf von DAP verwendet das System die Zusammenfassung der Daten, um automatisch eine Abfrage zu erstellen, die zur Abrufung relevanter Zeilen aus dem Datensatz dient. Eine Klassifizierung wird vom LLM unter Verwendung der Datenzusammenfassung und relevanter Zeilen generiert, was eine zufriedenstellende Genauigkeit auch bei komplexen Daten gewährleistet. Die Verwendung von Datenzusammenfassung und ähnlichen Daten in DAP gewährleistet entscheidungsbezogene Kontextsensibilität. Die vorgeschlagene Methode verwendet die Worte "Als ein erklärbares Machine Learning-Modell handeln" in der Eingabeaufforderung, um die Interpretierbarkeit der Vorhersagen zu verbessern, indem Benutzern ermöglicht wird, die Logik hinter jeder Vorhersage zu überprüfen. In einigen Testfällen erzielte das System eine Genauigkeit von über 90%, was die Wirksamkeit des Systems und sein Potenzial, herkömmliche ML-Modelle in verschiedenen Szenarien zu übertreffen, belegt. Der Code ist verfügbar unter https://github.com/Pro-GenAI/LML-DAP
English
This paper introduces a new approach to using Large Language Models (LLMs)
for classification tasks, which are typically handled using Machine Learning
(ML) models. Unlike ML models that rely heavily on data cleaning and feature
engineering, this method streamlines the process using LLMs. This paper
proposes a new concept called "Language Model Learning (LML)" powered by a new
method called "Data-Augmented Prediction (DAP)". The classification is
performed by LLMs using a method similar to humans manually exploring and
understanding the data and deciding classifications using data as a reference.
Training data is summarized and evaluated to determine the features that lead
to the classification of each label the most. In the process of DAP, the system
uses the data summary to automatically create a query, which is used to
retrieve relevant rows from the dataset. A classification is generated by the
LLM using data summary and relevant rows, ensuring satisfactory accuracy even
with complex data. Usage of data summary and similar data in DAP ensures
context-aware decision-making. The proposed method uses the words "Act as an
Explainable Machine Learning Model" in the prompt to enhance the
interpretability of the predictions by allowing users to review the logic
behind each prediction. In some test cases, the system scored an accuracy above
90%, proving the effectiveness of the system and its potential to outperform
conventional ML models in various scenarios. The code is available at
https://github.com/Pro-GenAI/LML-DAPSummary
AI-Generated Summary