ChatPaper.aiChatPaper

ZARA: Análisis de Series Temporales de Movimiento en Cero-Shot mediante Agentes de LLM Basados en Conocimiento y Recuperación

ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

August 6, 2025
Autores: Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
cs.AI

Resumen

Las series temporales de sensores de movimiento son fundamentales para el reconocimiento de actividades humanas (HAR), con aplicaciones en salud, deportes y dispositivos inteligentes. Sin embargo, los métodos existentes se entrenan para conjuntos de actividades fijos y requieren un costoso reentrenamiento cuando surgen nuevos comportamientos o configuraciones de sensores. Los intentos recientes de utilizar modelos de lenguaje de gran escala (LLMs) para HAR, típicamente convirtiendo señales en texto o imágenes, sufren de precisión limitada y carecen de interpretabilidad verificable. Proponemos ZARA, el primer marco basado en agentes para HAR de cero disparos y explicable directamente a partir de series temporales de movimiento en bruto. ZARA integra una base de conocimiento de características por pares derivada automáticamente que captura estadísticas discriminativas para cada par de actividades, un módulo de recuperación multi-sensor que resalta evidencia relevante, y una canalización jerárquica de agentes que guía al LLM para seleccionar características de manera iterativa, utilizar esta evidencia y producir tanto predicciones de actividades como explicaciones en lenguaje natural. ZARA permite HAR flexible e interpretable sin necesidad de ajuste fino o clasificadores específicos de tarea. Experimentos extensos en 8 benchmarks de HAR muestran que ZARA alcanza un rendimiento de cero disparos de última generación (SOTA), ofreciendo un razonamiento claro mientras supera a los baselines más fuertes por 2.53x en F1 macro. Estudios de ablación confirman además la necesidad de cada módulo, marcando a ZARA como un paso prometedor hacia el análisis confiable y plug-and-play de series temporales de movimiento. Nuestros códigos están disponibles en https://github.com/zechenli03/ZARA.
English
Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework for zero-shot, explainable HAR directly from raw motion time-series. ZARA integrates an automatically derived pair-wise feature knowledge base that captures discriminative statistics for every activity pair, a multi-sensor retrieval module that surfaces relevant evidence, and a hierarchical agent pipeline that guides the LLM to iteratively select features, draw on this evidence, and produce both activity predictions and natural-language explanations. ZARA enables flexible and interpretable HAR without any fine-tuning or task-specific classifiers. Extensive experiments on 8 HAR benchmarks show that ZARA achieves SOTA zero-shot performance, delivering clear reasoning while exceeding the strongest baselines by 2.53x in macro F1. Ablation studies further confirm the necessity of each module, marking ZARA as a promising step toward trustworthy, plug-and-play motion time-series analysis. Our codes are available at https://github.com/zechenli03/ZARA.
PDF11August 20, 2025