ZARA : Analyse de séries temporelles de mouvement en zero-shot via des agents LLM pilotés par la connaissance et la récupération
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
August 6, 2025
papers.authors: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI
papers.abstract
Les séries temporelles de capteurs de mouvement sont essentielles pour la reconnaissance d'activités humaines (HAR), avec des applications dans la santé, le sport et les dispositifs intelligents. Cependant, les méthodes existantes sont entraînées pour des ensembles d'activités fixes et nécessitent un réentraînement coûteux lorsque de nouveaux comportements ou configurations de capteurs apparaissent. Les tentatives récentes d'utiliser des modèles de langage de grande taille (LLMs) pour la HAR, généralement en convertissant les signaux en texte ou en images, souffrent d'une précision limitée et d'un manque d'interprétabilité vérifiable. Nous proposons ZARA, le premier cadre basé sur des agents pour la HAR en zero-shot et explicable directement à partir de séries temporelles brutes de mouvement. ZARA intègre une base de connaissances de caractéristiques par paires dérivée automatiquement qui capture les statistiques discriminantes pour chaque paire d'activités, un module de récupération multi-capteurs qui met en évidence les preuves pertinentes, et un pipeline hiérarchique d'agents qui guide le LLM pour sélectionner itérativement des caractéristiques, s'appuyer sur ces preuves, et produire à la fois des prédictions d'activités et des explications en langage naturel. ZARA permet une HAR flexible et interprétable sans aucun ajustement fin ou classificateur spécifique à la tâche. Des expériences approfondies sur 8 benchmarks de HAR montrent que ZARA atteint des performances SOTA en zero-shot, fournissant un raisonnement clair tout en dépassant les meilleures bases de référence de 2,53x en F1 macro. Les études d'ablation confirment en outre la nécessité de chaque module, marquant ZARA comme une étape prometteuse vers une analyse fiable et plug-and-play des séries temporelles de mouvement. Nos codes sont disponibles à l'adresse https://github.com/zechenli03/ZARA.
English
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.