LETS-C: Sfruttare l'Embedding Linguistico per la Classificazione di Serie Temporali

Abstract

I recenti progressi nella modellazione del linguaggio hanno mostrato risultati promettenti quando applicati ai dati di serie temporali. In particolare, il fine-tuning di modelli linguistici pre-addestrati di grandi dimensioni (LLM) per compiti di classificazione di serie temporali ha raggiunto prestazioni all'avanguardia (SOTA) su benchmark standard. Tuttavia, questi modelli basati su LLM presentano uno svantaggio significativo dovuto alle grandi dimensioni del modello, con un numero di parametri addestrabili nell'ordine dei milioni. In questo articolo, proponiamo un approccio alternativo per sfruttare il successo della modellazione del linguaggio nel dominio delle serie temporali. Invece di effettuare il fine-tuning degli LLM, utilizziamo un modello di embedding linguistico per incorporare le serie temporali e poi abbiniamo gli embedding a una semplice testa di classificazione composta da reti neurali convoluzionali (CNN) e perceptron multistrato (MLP). Abbiamo condotto esperimenti estesi su dataset di benchmark consolidati per la classificazione di serie temporali. Abbiamo dimostrato che LETS-C non solo supera l'attuale SOTA in termini di accuratezza di classificazione, ma offre anche una soluzione leggera, utilizzando in media solo il 14,5% dei parametri addestrabili rispetto al modello SOTA. I nostri risultati suggeriscono che sfruttare gli encoder linguistici per incorporare dati di serie temporali, combinati con una testa di classificazione semplice ma efficace, rappresenta una direzione promettente per ottenere una classificazione di serie temporali ad alte prestazioni mantenendo un'architettura di modello leggera.

English

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.

LETS-C: Sfruttare l'Embedding Linguistico per la Classificazione di Serie Temporali

LETS-C: Leveraging Language Embedding for Time Series Classification

Abstract

Support