ZARA: 知識と検索駆動型LLMエージェントによるゼロショット時系列モーション分析
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
August 6, 2025
著者: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI
要旨
モーションセンサーの時系列データは、人間行動認識(HAR)において中心的な役割を果たし、健康、スポーツ、スマートデバイスなどの分野で応用されています。しかし、既存の手法は固定された行動セットに対して訓練されており、新しい行動やセンサー設定が現れるたびにコストのかかる再訓練が必要です。最近では、大規模言語モデル(LLM)をHARに利用する試みが行われていますが、通常は信号をテキストや画像に変換する方法が採用されており、精度が限定的で検証可能な解釈性に欠けています。本研究では、生のモーション時系列データから直接ゼロショットで説明可能なHARを実現する初のエージェントベースのフレームワーク「ZARA」を提案します。ZARAは、各行動ペアの識別統計量を捉えた自動導出型のペアワイズ特徴知識ベース、関連する証拠を提示するマルチセンサー検索モジュール、そしてLLMを導いて特徴を反復的に選択し、この証拠を活用して行動予測と自然言語による説明を生成する階層型エージェントパイプラインを統合しています。ZARAは、ファインチューニングやタスク固有の分類器を一切必要とせず、柔軟で解釈可能なHARを実現します。8つのHARベンチマークでの広範な実験により、ZARAはSOTAのゼロショット性能を達成し、明確な推論を提供しながら、最強のベースラインを2.53倍のマクロF1で上回ることが示されました。アブレーション研究はさらに、各モジュールの必要性を確認し、ZARAが信頼性のあるプラグアンドプレイ型のモーション時系列分析に向けた有望な一歩であることを示しています。コードはhttps://github.com/zechenli03/ZARAで公開されています。
English
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.