ChatPaper.aiChatPaper

Insight Miner: Ein Zeitreihenanalyse-Datensatz für domänenübergreifende Ausrichtung mit natürlicher Sprache

Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

December 12, 2025
papers.authors: Yunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
cs.AI

papers.abstract

Zeitreihendaten sind in vielen wissenschaftlichen und industriellen Bereichen von entscheidender Bedeutung, darunter Umweltanalyse, Landwirtschaft, Verkehr und Finanzen. Die Gewinnung von Erkenntnissen aus diesen Daten erfordert jedoch in der Regel tiefgehende Domänenexpertise – ein Prozess, der sowohl zeitaufwändig als auch arbeitsintensiv ist. In diesem Artikel stellen wir Insight Miner vor, ein großes multimodales Modell (LMM), das darauf ausgelegt ist, hochwertige, umfassende Zeitreihenbeschreibungen zu generieren, die mit domänenspezifischem Wissen angereichert sind. Um dies zu ermöglichen, führen wir TS-Insights ein, den ersten allgemeinen Datensatz zur Ausrichtung von Zeitreihen und Sprache. TS-Insights enthält 100.000 Zeitreihenfenster, die aus 20 Prognosedatensätzen stammen. Wir konstruieren diesen Datensatz mithilfe eines neuartigen agentenbasierten Workflows, bei dem wir statistische Werkzeuge verwenden, um Merkmale aus Rohzeitreihen zu extrahieren, bevor wir sie mit GPT-4 zu kohärenten Trendbeschreibungen synthetisieren. Nach Instruction-Tuning auf TS-Insights übertrifft Insight Miner state-of-the-art multimodale Modelle wie LLaVA und GPT-4 bei der Generierung von Zeitreihenbeschreibungen und -einblicken. Unsere Ergebnisse deuten auf eine vielversprechende Richtung hin, um LMMs in der Zeitreihenanalyse zu nutzen, und stellen einen grundlegenden Schritt dar, um LLMs zu befähigen, Zeitreihen als native Eingabemodalität zu interpretieren.
English
Time-series data is critical across many scientific and industrial domains, including environmental analysis, agriculture, transportation, and finance. However, mining insights from this data typically requires deep domain expertise, a process that is both time-consuming and labor-intensive. In this paper, we propose Insight Miner, a large-scale multimodal model (LMM) designed to generate high-quality, comprehensive time-series descriptions enriched with domain-specific knowledge. To facilitate this, we introduce TS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}, the first general-domain dataset for time series and language alignment. TS-Insights contains 100k time-series windows sampled from 20 forecasting datasets. We construct this dataset using a novel agentic workflow, where we use statistical tools to extract features from raw time series before synthesizing them into coherent trend descriptions with GPT-4. Following instruction tuning on TS-Insights, Insight Miner outperforms state-of-the-art multimodal models, such as LLaVA liu2023llava and GPT-4, in generating time-series descriptions and insights. Our findings suggest a promising direction for leveraging LMMs in time series analysis, and serve as a foundational step toward enabling LLMs to interpret time series as a native input modality.
PDF42December 20, 2025