인-컨텍스트 학습을 통한 시계열 기반 모델 전이 가능성 추정
Estimating Time Series Foundation Model Transferability via In-Context Learning
September 28, 2025
저자: Qingren Yao, Ming Jin, Chengqi Zhang, Chao-Han Huck Yang, Jun Qi, Shirui Pan
cs.AI
초록
시계열 기반 모델(TSFMs)은 대규모 사전 학습을 통해 강력한 제로샷 예측 능력을 제공하지만, 공개 데이터가 제한된 도메인에서 성능을 향상시키기 위해서는 여전히 미세 조정이 중요합니다. TSFMs의 수가 증가함에 따라, 다운스트림 미세 조정을 위한 최적의 모델을 효율적으로 식별하는 것이 점점 더 어려워지고 있습니다. 본 연구에서는 모델 선택을 컨텍스트 내 학습 문제로 재구성하는 전이 가능성 추정 프레임워크인 TimeTic을 소개합니다: TimeTic은 알려진(소스) 데이터셋에 대한 관찰을 기반으로, TSFM이 다운스트림(타겟) 데이터셋에서 미세 조정 후 어떻게 수행될지 예측합니다. TimeTic은 관찰된 모델-데이터 관계를 컨텍스트 정보로 유연하게 조직하여 다양한 테스트 시나리오에 원활하게 적응할 수 있습니다. 데이터셋 메타 특성, 모델 특성, 미세 조정 성능으로 형성된 자연스러운 테이블 구조를 활용하여, 테이블 기반 모델을 컨텍스트 내 학습자로 사용합니다. 또한, 모델 레이어 간 엔트로피 진화를 기반으로 한 새로운 모델 특성화를 도입하여, 임베딩 공간의 차이를 포착하고 TimeTic이 임의의 모델 세트에 걸쳐 일반화할 수 있도록 합니다. 우리는 10개의 데이터셋, 10개의 기반 모델, 3개의 예측 작업을 포함한 전이 가능성 추정을 위한 포괄적인 벤치마크를 구축했습니다. 이 벤치마크에서 TimeTic의 추정은 이전에 보지 못한 데이터셋에 대한 실제 미세 조정 성능과 강력한 일치를 보여주며, 평균 순위 상관관계 약 0.6과 제로샷 성능을 전이 가능성 점수로 사용했을 때보다 30%의 성능 향상을 달성했습니다.
English
Time series foundation models (TSFMs) offer strong zero-shot forecasting via
large-scale pre-training, yet fine-tuning remains critical for boosting
performance in domains with limited public data. With the growing number of
TSFMs, efficiently identifying the best model for downstream fine-tuning
becomes increasingly challenging. In this work, we introduce TimeTic, a
transferability estimation framework that recasts model selection as an
in-context-learning problem: given observations on known (source) datasets, it
predicts how a TSFM will perform after fine-tuning on a downstream (target)
dataset. TimeTic flexibly organizes the observed model-data relationships as
contextual information, allowing it to adapt seamlessly to various test-time
scenarios. Leveraging the natural tabular structure formed by dataset
meta-features, model characteristics, and fine-tuned performance, we employ
tabular foundation models to serve as in-context learners. We further introduce
a novel model characterization based on entropy evolution across model layers,
capturing embedding-space distinctions and enabling TimeTic to generalize
across arbitrary model sets. We establish a comprehensive benchmark for
transferability estimation including 10 datasets, 10 foundation models, and 3
forecasting tasks. On this benchmark, TimeTic's estimation demonstrates strong
alignment with actual fine-tuned performance for previously unseen datasets,
achieving a mean rank correlation of approximately 0.6 and a 30% improvement
compared to using zero-shot performance as the transferability score.