IndusAgent: Verstärkung der industriellen Open-Vocabulary-Anomalieerkennung mit agentischen Werkzeugen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten gezeigt, visuelle Wahrnehmung und textbasiertes Denken zu verknüpfen und so Zero-Shot-Verständnis in verschiedenen industriellen Szenarien zu ermöglichen. Ihre Leistung bei der offenen Vokabular-Industrieanomalieerkennung (IAD) wird jedoch häufig durch domänenfehlangepasste Schlussfolgerungen und halluzinierte strukturelle Inferenzen eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir IndusAgent vor, ein werkzeugverstärktes agentisches Framework für die offene Vokabular-IAD. Konkret konstruieren wir zunächst Indus-CoT, einen strukturierten Datensatz, der globale visuelle Beobachtungen, hochauflösende lokale Patches und Expertenwissen über Normalität integriert und so eine Überwachung für das Feintuning des Modells auf rigorosen industriellen Inspektionspfaden bietet. Darauf aufbauend orchestriert IndusAgent dynamisch eine Reihe externer Werkzeuge, darunter dynamisches Regionen-Cropping, Hochfrequenz-Merkmalsverstärkung und Priorabruf, wodurch der Agent aktiv visuelle Mehrdeutigkeiten auflösen und subtile Anomalien entwirren kann. Darüber hinaus führen wir ein gated Reinforcement-Learning-Ziel ein, das gemeinsam die Klassifikation von Anomalien, die Lokalisierungsgenauigkeit, die Begründung des Anomalietyps und die effiziente Werkzeugnutzung optimiert und sicherstellt, dass Werkzeuge nur dann aufgerufen werden, wenn es vorteilhaft ist. Umfangreiche Evaluierungen auf fünf Industrieanomalie-Benchmarks, darunter MVTec-AD, VisA, MPDD, DTD und SDD, zeigen, dass IndusAgent unter allen existierenden Methoden eine hochmoderne Zero-Shot-Leistung erzielt und damit unsere Robustheit und Generalisierungsfähigkeit bestätigt.

English

Multimodal large language models (MLLMs) have shown remarkable capability in bridging visual perception and textual reasoning, enabling zero-shot understanding across diverse industrial scenarios. However, their performance in open-vocabulary industrial anomaly detection (IAD) is often limited by domain-misaligned reasoning and hallucinated structural inferences. To address these challenges, we propose IndusAgent, a tool-augmented agentic framework for open-vocabulary IAD. Specifically, we first construct Indus-CoT, a structured dataset that integrates global visual observations, high-resolution local patches, and expert normalcy priors, providing supervision for fine-tuning the model on rigorous industrial inspection trajectories. Building on this, IndusAgent dynamically orchestrates a set of external tools, including dynamic region cropping, high-frequency feature enhancement, and prior retrieval, thus enabling the agent to actively resolve visual ambiguities and disentangle subtle anomalies. Furthermore, we introduce a gated reinforcement learning objective that jointly optimizes anomaly classification, localization accuracy, anomaly type reasoning, and efficient tool usage, ensuring that tool invocation occurs only when beneficial. Extensive evaluations on five industrial anomaly benchmarks, including MVTec-AD, VisA, MPDD, DTD, and SDD, demonstrate that IndusAgent achieves state-of-the-art zero-shot performance among all existing methods, validating our robustness and generalization capacity.