ChatPaper.aiChatPaper

Insight Miner: Un Conjunto de Datos de Análisis de Series Temporales para la Alineación Transversal de Dominios con Lenguaje Natural

Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

December 12, 2025
Autores: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
cs.AI

Resumen

Los datos de series temporales son fundamentales en numerosos ámbitos científicos e industriales, como el análisis ambiental, la agricultura, el transporte y las finanzas. Sin embargo, extraer información de estos datos normalmente requiere un profundo conocimiento del dominio, un proceso que consume mucho tiempo y es intensivo en mano de obra. En este artículo, proponemos Insight Miner, un modelo multimodal a gran escala (LMM) diseñado para generar descripciones de series temporales de alta calidad y exhaustivas, enriquecidas con conocimiento específico del dominio. Para facilitar esto, presentamos TS-Insights (disponible en \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), el primer conjunto de datos de dominio general para la alineación de series temporales y lenguaje. TS-Insights contiene 100k ventanas de series temporales muestreadas a partir de 20 conjuntos de datos de pronóstico. Construimos este conjunto de datos utilizando un novedoso flujo de trabajo agentico, donde empleamos herramientas estadísticas para extraer características de las series temporales en bruto antes de sintetizarlas en descripciones coherentes de tendencias utilizando GPT-4. Tras el ajuste por instrucción en TS-Insights, Insight Miner supera a modelos multimodales de vanguardia, como LLaVA liu2023llava y GPT-4, en la generación de descripciones e información de series temporales. Nuestros hallazgos sugieren una dirección prometedora para aprovechar los LMM en el análisis de series temporales y representan un paso fundamental hacia la habilitación de los LLM para interpretar las series temporales como una modalidad de entrada nativa.
English
Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose Insight Miner, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce TS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel agentic workflow, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA liu2023llava and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.
PDF42December 20, 2025