ZARA: Zero-Shot-Analyse von Bewegungszeitreihen durch wissens- und abrufgesteuerte LLM-Agenten
ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
August 6, 2025
papers.authors: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI
papers.abstract
Zeitreihen von Bewegungssensoren sind zentral für die Erkennung menschlicher Aktivitäten (Human Activity Recognition, HAR) und finden Anwendungen in den Bereichen Gesundheit, Sport und intelligente Geräte. Bisherige Methoden werden jedoch für feste Aktivitätensätze trainiert und erfordern kostspieliges Nachtraining, wenn neue Verhaltensweisen oder Sensoranordnungen auftreten. Jüngste Versuche, große Sprachmodelle (Large Language Models, LLMs) für HAR zu nutzen, typischerweise durch die Umwandlung von Signalen in Text oder Bilder, leiden unter begrenzter Genauigkeit und fehlender überprüfbarer Interpretierbarkeit. Wir stellen ZARA vor, das erste agentenbasierte Framework für Zero-Shot, erklärbare HAR direkt aus Rohdaten von Bewegungszeitreihen. ZARA integriert eine automatisch abgeleitete paarweise Merkmalswissensbasis, die diskriminative Statistiken für jedes Aktivitätenpaar erfasst, ein Multi-Sensor-Retrieval-Modul, das relevante Beweise hervorhebt, und eine hierarchische Agentenpipeline, die das LLM anleitet, iterativ Merkmale auszuwählen, auf diese Beweise zurückzugreifen und sowohl Aktivitätsvorhersagen als auch natürliche Sprachbeschreibungen zu erstellen. ZARA ermöglicht flexible und interpretierbare HAR ohne jegliches Feinabstimmen oder aufgaben spezifische Klassifikatoren. Umfangreiche Experimente auf 8 HAR-Benchmarks zeigen, dass ZARA Zero-Shot-Leistungen auf dem neuesten Stand der Technik erreicht, klare Begründungen liefert und die stärksten Baselines um das 2,53-fache im Makro-F1-Wert übertrifft. Ablationsstudien bestätigen weiterhin die Notwendigkeit jedes Moduls und markieren ZARA als einen vielversprechenden Schritt hin zu vertrauenswürdiger, Plug-and-Play-Analyse von Bewegungszeitreihen. Unsere Codes sind verfügbar unter https://github.com/zechenli03/ZARA.
English
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework for zero-shot, explainable HAR directly
from raw motion time-series. ZARA integrates an automatically derived pair-wise
feature knowledge base that captures discriminative statistics for every
activity pair, a multi-sensor retrieval module that surfaces relevant evidence,
and a hierarchical agent pipeline that guides the LLM to iteratively select
features, draw on this evidence, and produce both activity predictions and
natural-language explanations. ZARA enables flexible and interpretable HAR
without any fine-tuning or task-specific classifiers. Extensive experiments on
8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering
clear reasoning while exceeding the strongest baselines by 2.53x in macro F1.
Ablation studies further confirm the necessity of each module, marking ZARA as
a promising step toward trustworthy, plug-and-play motion time-series analysis.
Our codes are available at https://github.com/zechenli03/ZARA.