Компактный, но надежный: эффективное визуально-языковое рассуждение для обнаружения аномалий временных рядов

Аннотация

Последние достижения в области моделей зрения-языка (VLM) демонстрируют впечатляющую производительность во многих задачах, однако предыдущие исследования сообщают о неудовлетворительных результатах при применении больших языковых или мультимодальных моделей к поиску аномальных паттернов в последовательных данных. Публичные бенчмарки по обнаружению аномалий обычно предоставляют интервальные аннотации, но не обоснования на естественном языке, что затрудняет тонкую настройку VLM для получения обоснованных и интерпретируемых решений. Для устранения этого пробела мы создаем VisAnomBench — тщательно подобранный бенчмарк, построенный на основе публичных наборов данных временных рядов и дополненный высококачественными объяснениями аномалий, отобранными из нескольких крупных VLM с использованием тонко настроенных, специфичных для задачи вознаграждений. Путем тонкой настройки на этом бенчмарке мы разрабатываем VisAnomReasoner — параметроэффективную VLM для обнаружения аномалий во временных рядах. Экспериментальные результаты на VisAnomBench показывают, что VisAnomReasoner обеспечивает более точную локализацию аномалий и стабильно превосходит все базовые модели, улучшая точность и F1-меру как минимум на 21,23 и 23,87 процентных пункта соответственно. Дополнительные эксперименты на бенчмарке TSB-AD-U демонстрируют сильную обобщаемость между бенчмарками: VisAnomReasoner улучшает точность и F1-меру на 9,57 и 13,39 процентных пункта соответственно.

English

Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.