LETS-C: Aprovechando la Incrustación de Lenguaje para la Clasificación de Series Temporales
LETS-C: Leveraging Language Embedding for Time Series Classification
July 9, 2024
Autores: Rachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso
cs.AI
Resumen
Los avances recientes en modelado de lenguaje han mostrado resultados prometedores al ser aplicados a datos de series temporales. En particular, el ajuste fino de modelos de lenguaje grandes pre-entrenados (LLMs, por sus siglas en inglés) para tareas de clasificación de series temporales ha logrado un rendimiento de estado del arte (SOTA) en benchmarks estándar. Sin embargo, estos modelos basados en LLM presentan una desventaja significativa debido al gran tamaño del modelo, con millones de parámetros entrenables. En este documento, proponemos un enfoque alternativo para aprovechar el éxito del modelado de lenguaje en el dominio de series temporales. En lugar de ajustar finamente LLMs, utilizamos un modelo de incrustación de lenguaje para incrustar series temporales y luego emparejamos las incrustaciones con una sencilla cabeza de clasificación compuesta por redes neuronales convolucionales (CNN) y perceptrón multicapa (MLP). Realizamos experimentos exhaustivos en conjuntos de datos de referencia bien establecidos para la clasificación de series temporales. Demostramos que LETS-C no solo supera la precisión de clasificación del SOTA actual, sino que también ofrece una solución ligera, utilizando solo el 14.5% de los parámetros entrenables en promedio en comparación con el modelo SOTA. Nuestros hallazgos sugieren que aprovechar los codificadores de lenguaje para incrustar datos de series temporales, combinado con una cabeza de clasificación simple pero efectiva, ofrece una dirección prometedora para lograr una clasificación de series temporales de alto rendimiento manteniendo una arquitectura de modelo ligera.
English
Recent advancements in language modeling have shown promising results when
applied to time series data. In particular, fine-tuning pre-trained large
language models (LLMs) for time series classification tasks has achieved
state-of-the-art (SOTA) performance on standard benchmarks. However, these
LLM-based models have a significant drawback due to the large model size, with
the number of trainable parameters in the millions. In this paper, we propose
an alternative approach to leveraging the success of language modeling in the
time series domain. Instead of fine-tuning LLMs, we utilize a language
embedding model to embed time series and then pair the embeddings with a simple
classification head composed of convolutional neural networks (CNN) and
multilayer perceptron (MLP). We conducted extensive experiments on
well-established time series classification benchmark datasets. We demonstrated
LETS-C not only outperforms the current SOTA in classification accuracy but
also offers a lightweight solution, using only 14.5% of the trainable
parameters on average compared to the SOTA model. Our findings suggest that
leveraging language encoders to embed time series data, combined with a simple
yet effective classification head, offers a promising direction for achieving
high-performance time series classification while maintaining a lightweight
model architecture.Summary
AI-Generated Summary