LETS-C: Aproveitando a Incorporação de Linguagem para Classificação de Séries Temporais
LETS-C: Leveraging Language Embedding for Time Series Classification
July 9, 2024
Autores: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
cs.AI
Resumo
Avanços recentes em modelagem de linguagem têm mostrado resultados promissores quando aplicados a dados de séries temporais. Em particular, o ajuste fino de grandes modelos de linguagem pré-treinados (LLMs, na sigla em inglês) para tarefas de classificação de séries temporais alcançou desempenho de estado da arte em benchmarks padrão. No entanto, esses modelos baseados em LLM apresentam uma desvantagem significativa devido ao grande tamanho do modelo, com o número de parâmetros treináveis na casa dos milhões. Neste artigo, propomos uma abordagem alternativa para aproveitar o sucesso da modelagem de linguagem no domínio de séries temporais. Em vez de ajustar finamente os LLMs, utilizamos um modelo de incorporação de linguagem para incorporar séries temporais e em seguida emparelhamos as incorporações com uma simples cabeça de classificação composta por redes neurais convolucionais (CNN) e perceptrons de múltiplas camadas (MLP). Realizamos experimentos extensivos em conjuntos de dados de benchmark de classificação de séries temporais bem estabelecidos. Demonstramos que o LETS-C não apenas supera o estado da arte atual em precisão de classificação, mas também oferece uma solução leve, utilizando em média apenas 14,5% dos parâmetros treináveis em comparação com o modelo de estado da arte. Nossas descobertas sugerem que aproveitar codificadores de linguagem para incorporar dados de séries temporais, combinados com uma cabeça de classificação simples, porém eficaz, oferece uma direção promissora para alcançar classificação de séries temporais de alto desempenho, mantendo uma arquitetura de modelo leve.
English
Recent advancements in language modeling have shown promising results when
applied to time series data. In particular, fine-tuning pre-trained large
language models (LLMs) for time series classification tasks has achieved
state-of-the-art (SOTA) performance on standard benchmarks. However, these
LLM-based models have a significant drawback due to the large model size, with
the number of trainable parameters in the millions. In this paper, we propose
an alternative approach to leveraging the success of language modeling in the
time series domain. Instead of fine-tuning LLMs, we utilize a language
embedding model to embed time series and then pair the embeddings with a simple
classification head composed of convolutional neural networks (CNN) and
multilayer perceptron (MLP). We conducted extensive experiments on
well-established time series classification benchmark datasets. We demonstrated
LETS-C not only outperforms the current SOTA in classification accuracy but
also offers a lightweight solution, using only 14.5% of the trainable
parameters on average compared to the SOTA model. Our findings suggest that
leveraging language encoders to embed time series data, combined with a simple
yet effective classification head, offers a promising direction for achieving
high-performance time series classification while maintaining a lightweight
model architecture.