LETS-C: Использование вложения языка для классификации временных рядов

Аннотация

Недавние достижения в области языкового моделирования показали многообещающие результаты при применении к данным временных рядов. В частности, настройка заранее обученных крупных языковых моделей (LLM) для задач классификации временных рядов достигла уровня передовых достижений (SOTA) на стандартных бенчмарках. Однако эти модели на основе LLM имеют существенный недостаток из-за большого размера модели, с миллионами обучаемых параметров. В данной статье мы предлагаем альтернативный подход к использованию успеха языкового моделирования в области временных рядов. Вместо настройки LLM мы используем языковую модель встраивания для встраивания временных рядов, а затем сочетаем встраивания с простым классификационным блоком, состоящим из сверточных нейронных сетей (CNN) и многослойного персептрона (MLP). Мы провели обширные эксперименты на хорошо известных наборах данных для классификации временных рядов. Мы продемонстрировали, что LETS-C не только превосходит текущий SOTA по точности классификации, но также предлагает легкое решение, используя в среднем лишь 14,5% обучаемых параметров по сравнению с моделью SOTA. Наши результаты показывают, что использование языковых кодировщиков для встраивания данных временных рядов, в сочетании с простым, но эффективным классификационным блоком, предлагает многообещающее направление для достижения высокой производительности классификации временных рядов при сохранении легкой архитектуры модели.

English

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.

LETS-C: Использование вложения языка для классификации временных рядов

LETS-C: Leveraging Language Embedding for Time Series Classification

Аннотация

Support