LETS-C: Sfruttare l'Embedding Linguistico per la Classificazione di Serie Temporali
LETS-C: Leveraging Language Embedding for Time Series Classification
July 9, 2024
Autori: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
cs.AI
Abstract
I recenti progressi nella modellazione del linguaggio hanno mostrato risultati promettenti quando applicati ai dati di serie temporali. In particolare, il fine-tuning di modelli linguistici pre-addestrati di grandi dimensioni (LLM) per compiti di classificazione di serie temporali ha raggiunto prestazioni all'avanguardia (SOTA) su benchmark standard. Tuttavia, questi modelli basati su LLM presentano uno svantaggio significativo dovuto alle grandi dimensioni del modello, con un numero di parametri addestrabili nell'ordine dei milioni. In questo articolo, proponiamo un approccio alternativo per sfruttare il successo della modellazione del linguaggio nel dominio delle serie temporali. Invece di effettuare il fine-tuning degli LLM, utilizziamo un modello di embedding linguistico per incorporare le serie temporali e poi abbiniamo gli embedding a una semplice testa di classificazione composta da reti neurali convoluzionali (CNN) e perceptron multistrato (MLP). Abbiamo condotto esperimenti estesi su dataset di benchmark consolidati per la classificazione di serie temporali. Abbiamo dimostrato che LETS-C non solo supera l'attuale SOTA in termini di accuratezza di classificazione, ma offre anche una soluzione leggera, utilizzando in media solo il 14,5% dei parametri addestrabili rispetto al modello SOTA. I nostri risultati suggeriscono che sfruttare gli encoder linguistici per incorporare dati di serie temporali, combinati con una testa di classificazione semplice ma efficace, rappresenta una direzione promettente per ottenere una classificazione di serie temporali ad alte prestazioni mantenendo un'architettura di modello leggera.
English
Recent advancements in language modeling have shown promising results when
applied to time series data. In particular, fine-tuning pre-trained large
language models (LLMs) for time series classification tasks has achieved
state-of-the-art (SOTA) performance on standard benchmarks. However, these
LLM-based models have a significant drawback due to the large model size, with
the number of trainable parameters in the millions. In this paper, we propose
an alternative approach to leveraging the success of language modeling in the
time series domain. Instead of fine-tuning LLMs, we utilize a language
embedding model to embed time series and then pair the embeddings with a simple
classification head composed of convolutional neural networks (CNN) and
multilayer perceptron (MLP). We conducted extensive experiments on
well-established time series classification benchmark datasets. We demonstrated
LETS-C not only outperforms the current SOTA in classification accuracy but
also offers a lightweight solution, using only 14.5% of the trainable
parameters on average compared to the SOTA model. Our findings suggest that
leveraging language encoders to embed time series data, combined with a simple
yet effective classification head, offers a promising direction for achieving
high-performance time series classification while maintaining a lightweight
model architecture.