ZARA: Analisi di Serie Temporali di Movimento Zero-shot tramite Agenti LLM Guidati da Conoscenza e Recupero
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
August 6, 2025
Autori: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI
Abstract
Le serie temporali dei sensori di movimento sono fondamentali per il riconoscimento delle attività umane (HAR), con applicazioni in ambito sanitario, sportivo e nei dispositivi intelligenti. Tuttavia, i metodi esistenti vengono addestrati su insiemi di attività fissi e richiedono un costoso riaddestramento quando compaiono nuovi comportamenti o configurazioni di sensori. I recenti tentativi di utilizzare modelli linguistici di grandi dimensioni (LLM) per l'HAR, tipicamente convertendo i segnali in testo o immagini, soffrono di una precisione limitata e mancano di interpretabilità verificabile. Proponiamo ZARA, il primo framework basato su agenti per l'HAR zero-shot e spiegabile direttamente dalle serie temporali grezze del movimento. ZARA integra una base di conoscenza di caratteristiche a coppie derivata automaticamente che cattura statistiche discriminative per ogni coppia di attività, un modulo di recupero multi-sensore che evidenzia prove rilevanti e una pipeline gerarchica di agenti che guida l'LLM a selezionare iterativamente le caratteristiche, attingere a queste prove e produrre sia previsioni sulle attività che spiegazioni in linguaggio naturale. ZARA consente un HAR flessibile e interpretabile senza alcuna messa a punto o classificatori specifici per il compito. Esperimenti estesi su 8 benchmark HAR dimostrano che ZARA raggiunge prestazioni zero-shot all'avanguardia, fornendo un ragionamento chiaro e superando i baseline più forti di 2,53x nel macro F1. Studi di ablazione confermano ulteriormente la necessità di ciascun modulo, segnando ZARA come un passo promettente verso un'analisi affidabile e plug-and-play delle serie temporali del movimento. I nostri codici sono disponibili su https://github.com/zechenli03/ZARA.
English
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.