LETS-C: Nutzung von Sprachembedding für die Klassifizierung von Zeitreihen
LETS-C: Leveraging Language Embedding for Time Series Classification
July 9, 2024
Autoren: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte im Bereich des Sprachmodellierens vielversprechende Ergebnisse gezeigt, wenn sie auf Zeitreihendaten angewendet werden. Insbesondere hat das Feinabstimmen vorab trainierter großer Sprachmodelle (LLMs) für Zeitreihenklassifizierungsaufgaben eine Spitzenleistung auf Standard-Benchmarks erreicht. Allerdings haben diese LLM-basierten Modelle einen signifikanten Nachteil aufgrund ihrer großen Modellgröße, mit Millionen von trainierbaren Parametern. In diesem Paper schlagen wir einen alternativen Ansatz vor, um den Erfolg des Sprachmodellierens im Bereich der Zeitreihen zu nutzen. Anstatt LLMs feinzutunen, nutzen wir ein Sprachembedding-Modell, um Zeitreihen einzubetten, und paaren dann die Einbettungen mit einem einfachen Klassifikationskopf, bestehend aus faltenden neuronalen Netzwerken (CNN) und mehrschichtigen Perzeptronen (MLP). Wir führten umfangreiche Experimente an etablierten Benchmark-Datensätzen für Zeitreihenklassifizierung durch. Wir haben gezeigt, dass LETS-C nicht nur die aktuelle Spitzenleistung in der Klassifikationsgenauigkeit übertrifft, sondern auch eine leichtgewichtige Lösung bietet, die im Durchschnitt nur 14,5% der trainierbaren Parameter im Vergleich zum Spitzenmodell verwendet. Unsere Ergebnisse legen nahe, dass die Nutzung von Sprachencodern zur Einbettung von Zeitreihendaten, kombiniert mit einem einfachen, aber effektiven Klassifikationskopf, eine vielversprechende Richtung für die Erzielung einer leistungsstarken Zeitreihenklassifizierung bei gleichzeitiger Beibehaltung einer leichtgewichtigen Modellarchitektur darstellt.
English
Recent advancements in language modeling have shown promising results when
applied to time series data. In particular, fine-tuning pre-trained large
language models (LLMs) for time series classification tasks has achieved
state-of-the-art (SOTA) performance on standard benchmarks. However, these
LLM-based models have a significant drawback due to the large model size, with
the number of trainable parameters in the millions. In this paper, we propose
an alternative approach to leveraging the success of language modeling in the
time series domain. Instead of fine-tuning LLMs, we utilize a language
embedding model to embed time series and then pair the embeddings with a simple
classification head composed of convolutional neural networks (CNN) and
multilayer perceptron (MLP). We conducted extensive experiments on
well-established time series classification benchmark datasets. We demonstrated
LETS-C not only outperforms the current SOTA in classification accuracy but
also offers a lightweight solution, using only 14.5% of the trainable
parameters on average compared to the SOTA model. Our findings suggest that
leveraging language encoders to embed time series data, combined with a simple
yet effective classification head, offers a promising direction for achieving
high-performance time series classification while maintaining a lightweight
model architecture.Summary
AI-Generated Summary