LML: Apprendimento del Modello Linguistico su un Dataset per la Predizione Potenziata dai Dati

Abstract

Questo articolo introduce un nuovo approccio all'utilizzo di Grandi Modelli Linguistici (GML) per compiti di classificazione, che vengono tipicamente gestiti utilizzando modelli di Apprendimento Automatico (AA). A differenza dei modelli di AA che si basano pesantemente sulla pulizia dei dati e sull'ingegneria delle caratteristiche, questo metodo semplifica il processo utilizzando i GML. Questo articolo propone un nuovo concetto chiamato "Apprendimento del Modello Linguistico (LML)" alimentato da un nuovo metodo chiamato "Predizione con Dati Aggiunti (DAP)". La classificazione viene eseguita dai GML utilizzando un metodo simile a quello in cui gli esseri umani esplorano manualmente e comprendono i dati e decidono le classificazioni utilizzando i dati come riferimento. I dati di addestramento vengono riassunti e valutati per determinare le caratteristiche che portano alla classificazione di ciascuna etichetta nel modo più efficace. Nel processo di DAP, il sistema utilizza il riassunto dei dati per creare automaticamente una query, che viene utilizzata per recuperare righe rilevanti dal dataset. Una classificazione viene generata dai GML utilizzando il riassunto dei dati e le righe rilevanti, garantendo un'accuratezza soddisfacente anche con dati complessi. L'utilizzo del riassunto dei dati e di dati simili in DAP garantisce una presa di decisioni consapevole del contesto. Il metodo proposto utilizza le parole "Agire come un Modello di Apprendimento Automatico Esplicabile" nel prompt per migliorare l'interpretabilità delle previsioni consentendo agli utenti di esaminare la logica dietro ciascuna previsione. In alcuni casi di test, il sistema ha ottenuto un'accuratezza superiore al 90%, dimostrando l'efficacia del sistema e il suo potenziale per superare i modelli di AA convenzionali in vari scenari. Il codice è disponibile su https://github.com/Pro-GenAI/LML-DAP

English

This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks, which are typically handled using Machine Learning (ML) models. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)". The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. Training data is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary to automatically create a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data. Usage of data summary and similar data in DAP ensures context-aware decision-making. The proposed method uses the words "Act as an Explainable Machine Learning Model" in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP

LML: Apprendimento del Modello Linguistico su un Dataset per la Predizione Potenziata dai Dati

LML: Language Model Learning a Dataset for Data-Augmented Prediction

Abstract

Support