インサイトマイナー:自然言語とのクロスドメインアライメントのための時系列分析データセット
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language
December 12, 2025
著者: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
cs.AI
要旨
時系列データは、環境分析、農業、交通、金融など、多くの科学分野や産業領域において極めて重要である。しかし、このデータから洞察を発掘するには通常、深い専門知識が必要であり、時間と労力を要するプロセスとなっている。本論文では、ドメイン固有の知識を豊富に含んだ高品質で包括的な時系列記述を生成するために設計された大規模マルチモーダルモデル(LMM)、Insight Minerを提案する。これを実現するため、時系列データと言語のアラインメントにおける初の汎用ドメインデータセットであるTS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}を導入する。TS-Insightsは、20の予測データセットからサンプリングされた10万の時系列ウィンドウを含む。このデータセットは、統計ツールを用いて生の時系列データから特徴量を抽出した後、GPT-4を用いてそれらを首尾一貫したトレンド記述へと統合する、新しいエージェントワークフローによって構築した。TS-Insightsで指示チューニングを行った後、Insight Minerは、時系列の記述と洞察の生成において、LLaVA liu2023llava や GPT-4 などの最先端マルチモーダルモデルを凌駕する性能を示した。我々の発見は、時系列分析においてLMMを活用する有望な方向性を示唆するとともに、LLMが時系列をネイティブな入力モダリティとして解釈できるようにするための基礎的な一歩となる。
English
Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose Insight Miner, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce TS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel agentic workflow, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA liu2023llava and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.