Обучение языковой модели на наборе данных для предсказания с дополнением данных
LML: Language Model Learning a Dataset for Data-Augmented Prediction
September 27, 2024
Авторы: Praneeth Vadlapati
cs.AI
Аннотация
Эта статья представляет новый подход к использованию больших языковых моделей (Large Language Models, LLMs) для задач классификации, которые обычно решаются с использованием моделей машинного обучения (Machine Learning, ML). В отличие от моделей ML, которые сильно зависят от очистки данных и создания признаков, этот метод оптимизирует процесс с использованием LLMs. В статье предлагается новая концепция под названием "Языковое Модельное Обучение (Language Model Learning, LML)", основанная на новом методе под названием "Предсказание с Дополнением Данных (Data-Augmented Prediction, DAP)". Классификация выполняется LLMs с использованием метода, аналогичного тому, как люди вручную исследуют и понимают данные, принимая решения о классификации с использованием данных в качестве опоры. Обучающие данные резюмируются и оцениваются для определения признаков, которые больше всего влияют на классификацию каждой метки. В процессе DAP система использует резюме данных для автоматического создания запроса, который используется для извлечения соответствующих строк из набора данных. Классификация генерируется LLM с использованием резюме данных и соответствующих строк, обеспечивая удовлетворительную точность даже с комплексными данными. Использование резюме данных и аналогичных данных в DAP обеспечивает контекстно-ориентированное принятие решений. Предложенный метод использует фразу "Действовать как Модель Машинного Обучения, Объяснимая в Работе" в подсказке для улучшения интерпретируемости прогнозов, позволяя пользователям изучить логику за каждым прогнозом. В некоторых тестовых случаях система показала точность более 90%, доказывая эффективность системы и ее потенциал превзойти традиционные модели ML в различных сценариях. Код доступен по ссылке https://github.com/Pro-GenAI/LML-DAP
English
This paper introduces a new approach to using Large Language Models (LLMs)
for classification tasks, which are typically handled using Machine Learning
(ML) models. Unlike ML models that rely heavily on data cleaning and feature
engineering, this method streamlines the process using LLMs. This paper
proposes a new concept called "Language Model Learning (LML)" powered by a new
method called "Data-Augmented Prediction (DAP)". The classification is
performed by LLMs using a method similar to humans manually exploring and
understanding the data and deciding classifications using data as a reference.
Training data is summarized and evaluated to determine the features that lead
to the classification of each label the most. In the process of DAP, the system
uses the data summary to automatically create a query, which is used to
retrieve relevant rows from the dataset. A classification is generated by the
LLM using data summary and relevant rows, ensuring satisfactory accuracy even
with complex data. Usage of data summary and similar data in DAP ensures
context-aware decision-making. The proposed method uses the words "Act as an
Explainable Machine Learning Model" in the prompt to enhance the
interpretability of the predictions by allowing users to review the logic
behind each prediction. In some test cases, the system scored an accuracy above
90%, proving the effectiveness of the system and its potential to outperform
conventional ML models in various scenarios. The code is available at
https://github.com/Pro-GenAI/LML-DAPSummary
AI-Generated Summary