LETS-C: Aproveitando a Incorporação de Linguagem para Classificação de Séries Temporais

Resumo

Avanços recentes em modelagem de linguagem têm mostrado resultados promissores quando aplicados a dados de séries temporais. Em particular, o ajuste fino de grandes modelos de linguagem pré-treinados (LLMs, na sigla em inglês) para tarefas de classificação de séries temporais alcançou desempenho de estado da arte em benchmarks padrão. No entanto, esses modelos baseados em LLM apresentam uma desvantagem significativa devido ao grande tamanho do modelo, com o número de parâmetros treináveis na casa dos milhões. Neste artigo, propomos uma abordagem alternativa para aproveitar o sucesso da modelagem de linguagem no domínio de séries temporais. Em vez de ajustar finamente os LLMs, utilizamos um modelo de incorporação de linguagem para incorporar séries temporais e em seguida emparelhamos as incorporações com uma simples cabeça de classificação composta por redes neurais convolucionais (CNN) e perceptrons de múltiplas camadas (MLP). Realizamos experimentos extensivos em conjuntos de dados de benchmark de classificação de séries temporais bem estabelecidos. Demonstramos que o LETS-C não apenas supera o estado da arte atual em precisão de classificação, mas também oferece uma solução leve, utilizando em média apenas 14,5% dos parâmetros treináveis em comparação com o modelo de estado da arte. Nossas descobertas sugerem que aproveitar codificadores de linguagem para incorporar dados de séries temporais, combinados com uma cabeça de classificação simples, porém eficaz, oferece uma direção promissora para alcançar classificação de séries temporais de alto desempenho, mantendo uma arquitetura de modelo leve.

English

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.

LETS-C: Aproveitando a Incorporação de Linguagem para Classificação de Séries Temporais

LETS-C: Leveraging Language Embedding for Time Series Classification

Resumo

Support