ChatPaper.aiChatPaper

Insight Miner: Een Tijdreeksanalysegegevensset voor Domeinoverschrijdende Afstemming met Natuurlijke Taal

Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

December 12, 2025
Auteurs: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
cs.AI

Samenvatting

Tijdreeksgegevens zijn van cruciaal belang in vele wetenschappelijke en industriële domeinen, waaronder milieu-analyse, landbouw, transport en financiën. Het verkrijgen van inzichten uit deze gegevens vereist echter doorgaans diepgaande domeinkennis, een proces dat zowel tijdrovend als arbeidsintensief is. In dit artikel presenteren we Insight Miner, een grootschalig multimodaal model (LMM) dat is ontworpen om hoogwaardige, uitgebreide tijdreeksbeschrijvingen te genereren die zijn verrijkt met domeinspecifieke kennis. Om dit mogelijk te maken, introduceren we TS-InsightsBeschikbaar op \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, de eerste algemene-domeindataset voor tijdreeks- en taalalignatie. TS-Insights bevat 100k tijdreeksvensters, bemonsterd uit 20 forecast-datasets. We construeren deze dataset met behulp van een nieuwe agent-gebaseerde workflow, waarbij we statistische tools gebruiken om kenmerken uit ruwe tijdreeksen te extraheren voordat we ze synthetiseren tot samenhangende trendbeschrijvingen met GPT-4. Na instructieafstemming op TS-Insights presteert Insight Miner beter dan state-of-the-art multimodale modellen, zoals LLaVA liu2023llava en GPT-4, in het genereren van tijdreeksbeschrijvingen en -inzichten. Onze bevindingen wijzen op een veelbelovende richting voor het benutten van LMM's in tijdreeksanalyse en vormen een fundamentele stap naar het in staat stellen van LLM's om tijdreeksen te interpreteren als een native invoermodaliteit.
English
Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose Insight Miner, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce TS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel agentic workflow, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA liu2023llava and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.
PDF62December 31, 2025