ZARA: 지식 및 검색 기반 LLM 에이전트를 통한 제로샷 모션 시계열 분석
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
August 6, 2025
저자: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI
초록
모션 센서 시계열 데이터는 인간 활동 인식(HAR)의 핵심 요소로, 건강, 스포츠, 스마트 디바이스 등 다양한 분야에서 활용됩니다. 그러나 기존 방법들은 고정된 활동 집합에 대해 학습되며, 새로운 행동이나 센서 설정이 등장할 때마다 비용이 많이 드는 재학습이 필요합니다. 최근 대규모 언어 모델(LLM)을 HAR에 활용하려는 시도들은 일반적으로 신호를 텍스트나 이미지로 변환하는 방식을 사용하지만, 정확도가 제한적이고 검증 가능한 해석력을 결여하고 있습니다. 우리는 원시 모션 시계열 데이터에서 바로 제로샷(zero-shot) 및 설명 가능한 HAR을 수행하는 최초의 에이전트 기반 프레임워크인 ZARA를 제안합니다. ZARA는 각 활동 쌍에 대한 판별 통계를 포착하는 자동 생성된 쌍별 특징 지식 베이스, 관련 증거를 도출하는 다중 센서 검색 모듈, 그리고 LLM이 반복적으로 특징을 선택하고 이 증거를 활용하며 활동 예측과 자연어 설명을 생성하도록 안내하는 계층적 에이전트 파이프라인을 통합합니다. ZARA는 미세 조정이나 작업별 분류기 없이도 유연하고 해석 가능한 HAR을 가능하게 합니다. 8개의 HAR 벤치마크에서 진행된 광범위한 실험 결과, ZARA는 SOTA 제로샷 성능을 달성하며 명확한 추론을 제공하면서 가장 강력한 베이스라인을 매크로 F1 점수에서 2.53배 초과하는 성과를 보였습니다. 추가로 수행된 어블레이션 연구는 각 모듈의 필요성을 확인하며, ZARA를 신뢰할 수 있는 플러그 앤 플레이 모션 시계열 분석을 위한 유망한 단계로 표시합니다. 우리의 코드는 https://github.com/zechenli03/ZARA에서 확인할 수 있습니다.
English
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.