LETS-C: Aprovechando la Incrustación de Lenguaje para la Clasificación de Series Temporales

Resumen

Los avances recientes en modelado de lenguaje han mostrado resultados prometedores al ser aplicados a datos de series temporales. En particular, el ajuste fino de modelos de lenguaje grandes pre-entrenados (LLMs, por sus siglas en inglés) para tareas de clasificación de series temporales ha logrado un rendimiento de estado del arte (SOTA) en benchmarks estándar. Sin embargo, estos modelos basados en LLM presentan una desventaja significativa debido al gran tamaño del modelo, con millones de parámetros entrenables. En este documento, proponemos un enfoque alternativo para aprovechar el éxito del modelado de lenguaje en el dominio de series temporales. En lugar de ajustar finamente LLMs, utilizamos un modelo de incrustación de lenguaje para incrustar series temporales y luego emparejamos las incrustaciones con una sencilla cabeza de clasificación compuesta por redes neuronales convolucionales (CNN) y perceptrón multicapa (MLP). Realizamos experimentos exhaustivos en conjuntos de datos de referencia bien establecidos para la clasificación de series temporales. Demostramos que LETS-C no solo supera la precisión de clasificación del SOTA actual, sino que también ofrece una solución ligera, utilizando solo el 14.5% de los parámetros entrenables en promedio en comparación con el modelo SOTA. Nuestros hallazgos sugieren que aprovechar los codificadores de lenguaje para incrustar datos de series temporales, combinado con una cabeza de clasificación simple pero efectiva, ofrece una dirección prometedora para lograr una clasificación de series temporales de alto rendimiento manteniendo una arquitectura de modelo ligera.

English

Recent advancements in language modeling have shown promising results when applied to time series data. In particular, fine-tuning pre-trained large language models (LLMs) for time series classification tasks has achieved state-of-the-art (SOTA) performance on standard benchmarks. However, these LLM-based models have a significant drawback due to the large model size, with the number of trainable parameters in the millions. In this paper, we propose an alternative approach to leveraging the success of language modeling in the time series domain. Instead of fine-tuning LLMs, we utilize a language embedding model to embed time series and then pair the embeddings with a simple classification head composed of convolutional neural networks (CNN) and multilayer perceptron (MLP). We conducted extensive experiments on well-established time series classification benchmark datasets. We demonstrated LETS-C not only outperforms the current SOTA in classification accuracy but also offers a lightweight solution, using only 14.5% of the trainable parameters on average compared to the SOTA model. Our findings suggest that leveraging language encoders to embed time series data, combined with a simple yet effective classification head, offers a promising direction for achieving high-performance time series classification while maintaining a lightweight model architecture.

LETS-C: Aprovechando la Incrustación de Lenguaje para la Clasificación de Series Temporales

LETS-C: Leveraging Language Embedding for Time Series Classification

Resumen

Support