LETS-C : Exploitation des embeddings linguistiques pour la classification de séries temporelles

papers.abstract

Les récents progrès en modélisation du langage ont montré des résultats prometteurs lorsqu'ils sont appliqués aux données de séries temporelles. En particulier, le fine-tuning de grands modèles de langage pré-entraînés (LLMs) pour des tâches de classification de séries temporelles a atteint des performances de pointe (SOTA) sur des benchmarks standard. Cependant, ces modèles basés sur des LLMs présentent un inconvénient majeur dû à leur taille importante, avec un nombre de paramètres entraînables se comptant en millions. Dans cet article, nous proposons une approche alternative pour exploiter le succès de la modélisation du langage dans le domaine des séries temporelles. Au lieu de procéder au fine-tuning des LLMs, nous utilisons un modèle d'embedding de langage pour encoder les séries temporelles, puis nous associons ces embeddings à une tête de classification simple composée de réseaux de neurones convolutifs (CNN) et de perceptrons multicouches (MLP). Nous avons mené des expériences approfondies sur des ensembles de données de référence bien établis pour la classification de séries temporelles. Nous avons démontré que LETS-C non seulement surpasse l'état de l'art actuel en termes de précision de classification, mais offre également une solution légère, utilisant en moyenne seulement 14,5 % des paramètres entraînables par rapport au modèle SOTA. Nos résultats suggèrent que l'utilisation d'encodeurs de langage pour encoder les données de séries temporelles, combinée à une tête de classification simple mais efficace, ouvre une voie prometteuse pour atteindre des performances élevées en classification de séries temporelles tout en maintenant une architecture de modèle légère.

English

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.

LETS-C : Exploitation des embeddings linguistiques pour la classification de séries temporelles

LETS-C: Leveraging Language Embedding for Time Series Classification

papers.abstract

Support