LETS-C : Exploitation des embeddings linguistiques pour la classification de séries temporelles
LETS-C: Leveraging Language Embedding for Time Series Classification
July 9, 2024
Auteurs: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
cs.AI
Résumé
Les récents progrès en modélisation du langage ont montré des résultats prometteurs lorsqu'ils sont appliqués aux données de séries temporelles. En particulier, le fine-tuning de grands modèles de langage pré-entraînés (LLMs) pour des tâches de classification de séries temporelles a atteint des performances de pointe (SOTA) sur des benchmarks standard. Cependant, ces modèles basés sur des LLMs présentent un inconvénient majeur dû à leur taille importante, avec un nombre de paramètres entraînables se comptant en millions. Dans cet article, nous proposons une approche alternative pour exploiter le succès de la modélisation du langage dans le domaine des séries temporelles. Au lieu de procéder au fine-tuning des LLMs, nous utilisons un modèle d'embedding de langage pour encoder les séries temporelles, puis nous associons ces embeddings à une tête de classification simple composée de réseaux de neurones convolutifs (CNN) et de perceptrons multicouches (MLP). Nous avons mené des expériences approfondies sur des ensembles de données de référence bien établis pour la classification de séries temporelles. Nous avons démontré que LETS-C non seulement surpasse l'état de l'art actuel en termes de précision de classification, mais offre également une solution légère, utilisant en moyenne seulement 14,5 % des paramètres entraînables par rapport au modèle SOTA. Nos résultats suggèrent que l'utilisation d'encodeurs de langage pour encoder les données de séries temporelles, combinée à une tête de classification simple mais efficace, ouvre une voie prometteuse pour atteindre des performances élevées en classification de séries temporelles tout en maintenant une architecture de modèle légère.
English
Recent advancements in language modeling have shown promising results when
applied to time series data. In particular, fine-tuning pre-trained large
language models (LLMs) for time series classification tasks has achieved
state-of-the-art (SOTA) performance on standard benchmarks. However, these
LLM-based models have a significant drawback due to the large model size, with
the number of trainable parameters in the millions. In this paper, we propose
an alternative approach to leveraging the success of language modeling in the
time series domain. Instead of fine-tuning LLMs, we utilize a language
embedding model to embed time series and then pair the embeddings with a simple
classification head composed of convolutional neural networks (CNN) and
multilayer perceptron (MLP). We conducted extensive experiments on
well-established time series classification benchmark datasets. We demonstrated
LETS-C not only outperforms the current SOTA in classification accuracy but
also offers a lightweight solution, using only 14.5% of the trainable
parameters on average compared to the SOTA model. Our findings suggest that
leveraging language encoders to embed time series data, combined with a simple
yet effective classification head, offers a promising direction for achieving
high-performance time series classification while maintaining a lightweight
model architecture.Summary
AI-Generated Summary