ChatPaper.aiChatPaper

Insight Miner : Un jeu de données d'analyse de séries temporelles pour l'alignement interdomaine avec le langage naturel

Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

December 12, 2025
papers.authors: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
cs.AI

papers.abstract

Les données chronologiques sont essentielles dans de nombreux domaines scientifiques et industriels, notamment l'analyse environnementale, l'agriculture, les transports et la finance. Cependant, l'extraction de connaissances à partir de ces données nécessite généralement une expertise approfondie du domaine, un processus à la fois long et laborieux. Dans cet article, nous proposons Insight Miner, un modèle multimodal à grande échelle conçu pour générer des descriptions de séries temporelles de haute qualité et complètes, enrichies de connaissances spécifiques au domaine. Pour faciliter cela, nous présentons TS-Insights, le premier jeu de données général pour l'alignement des séries temporelles et du langage. TS-Insights contient 100 000 fenêtres de séries temporelles échantillonnées à partir de 20 jeux de données de prévision. Nous avons construit ce jeu de données en utilisant un nouveau flux de travail agentique, où nous utilisons des outils statistiques pour extraire des caractéristiques des séries temporelles brutes avant de les synthétiser en descriptions de tendances cohérentes avec GPT-4. Après un réglage par instruction sur TS-Insights, Insight Miner surpasse les modèles multimodaux de pointe, tels que LLaVA et GPT-4, dans la génération de descriptions et d'analyses de séries temporelles. Nos résultats suggèrent une voie prometteuse pour l'exploitation des modèles multimodaux dans l'analyse des séries temporelles et constituent une étape fondamentale vers la capacité des grands modèles de langage à interpréter les séries temporelles comme une modalité d'entrée native.
English
Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose Insight Miner, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce TS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel agentic workflow, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA liu2023llava and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.
PDF42December 20, 2025