ChatPaper.aiChatPaper

ZARA: Análise de Séries Temporais de Movimento Zero-shot via Agentes de LLM Orientados por Conhecimento e Recuperação

ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

August 6, 2025
Autores: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI

Resumo

Séries temporais de sensores de movimento são fundamentais para o reconhecimento de atividades humanas (HAR), com aplicações em saúde, esportes e dispositivos inteligentes. No entanto, os métodos existentes são treinados para conjuntos fixos de atividades e exigem um retreinamento custoso quando novos comportamentos ou configurações de sensores surgem. Tentativas recentes de usar modelos de linguagem de grande escala (LLMs) para HAR, geralmente convertendo sinais em texto ou imagens, sofrem com precisão limitada e falta de interpretabilidade verificável. Propomos ZARA, o primeiro framework baseado em agentes para HAR zero-shot e explicável diretamente a partir de séries temporais brutas de movimento. O ZARA integra uma base de conhecimento de características pareadas derivada automaticamente que captura estatísticas discriminativas para cada par de atividades, um módulo de recuperação multi-sensor que traz evidências relevantes à tona, e um pipeline hierárquico de agentes que guia o LLM a selecionar iterativamente características, utilizar essas evidências e produzir tanto previsões de atividades quanto explicações em linguagem natural. O ZARA permite HAR flexível e interpretável sem qualquer ajuste fino ou classificadores específicos para tarefas. Experimentos extensivos em 8 benchmarks de HAR mostram que o ZARA alcança desempenho zero-shot de ponta, oferecendo raciocínio claro enquanto supera os baselines mais fortes em 2,53x no F1 macro. Estudos de ablação confirmam ainda a necessidade de cada módulo, marcando o ZARA como um passo promissor em direção à análise confiável e plug-and-play de séries temporais de movimento. Nossos códigos estão disponíveis em https://github.com/zechenli03/ZARA.
English
Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework for zero-shot, explainable HAR directly from raw motion time-series. ZARA integrates an automatically derived pair-wise feature knowledge base that captures discriminative statistics for every activity pair, a multi-sensor retrieval module that surfaces relevant evidence, and a hierarchical agent pipeline that guides the LLM to iteratively select features, draw on this evidence, and produce both activity predictions and natural-language explanations. ZARA enables flexible and interpretable HAR without any fine-tuning or task-specific classifiers. Extensive experiments on 8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering clear reasoning while exceeding the strongest baselines by 2.53x in macro F1. Ablation studies further confirm the necessity of each module, marking ZARA as a promising step toward trustworthy, plug-and-play motion time-series analysis. Our codes are available at https://github.com/zechenli03/ZARA.
PDF12August 20, 2025